INDEX
Negative Logits
nostru
-0.10
slippery
-0.09
/she
-0.08
Bur
-0.08
ligero
-0.08
سريع
-0.08
político
-0.08
extremos
-0.07
USTER
-0.07
الاحتلال
-0.07
POSITIVE LOGITS
herself
0.11
née
0.10
小姐
0.09
anne
0.09
Louise
0.09
Margaret
0.09
केली
0.08
咪
0.08
стала
0.08
होती
0.08
Activations Density 0.348%