INDEX
Negative Logits
Bir
-0.09
Sturm
-0.09
sae
-0.08
Bir
-0.08
ិ
-0.08
thigh
-0.08
Jeanne
-0.07
Ada
-0.07
Feuer
-0.07
inu
-0.07
POSITIVE LOGITS
correctement
0.08
материалы
0.08
ahkan
0.08
рі
0.07
mó
0.07
Employers
0.07
ldr
0.07
มา
0.07
енные
0.07
KON
0.07
Activations Density 0.001%