INDEX
Negative Logits
innen
0.89
ron
0.83
ines
0.82
icks
0.81
ily
0.81
lo
0.80
rm
0.79
angan
0.77
issant
0.77
negara
0.76
POSITIVE LOGITS
ἲ
0.96
الز
0.83
0.81
贝
0.80
F
0.80
λά
0.79
ਤਾ
0.79
يتر
0.79
difíc
0.77
రై
0.77
Activations Density 0.001%
innen
ron
ines
icks
ily
lo
rm
angan
issant
negara
ἲ
الز
贝
F
λά
ਤਾ
يتر
difíc
రై