INDEX
Negative Logits
indow
-0.07
telephone
-0.07
insign
-0.07
tok
-0.07
ooth
-0.07
ﳫ
-0.07
станов
-0.07
Accum
-0.07
父子
-0.07
udev
-0.06
POSITIVE LOGITS
ار
0.07
ividad
0.06
ирование
0.06
حرية
0.06
הפוך
0.06
chatte
0.06
RATE
0.06
致
0.06
ität
0.06
祝贺
0.06
Activations Density 0.016%