INDEX
Negative Logits
sponsor
-0.08
prep
-0.08
(std
-0.08
memes
-0.07
زیادی
-0.07
u
-0.07
(_,
-0.07
moda
-0.07
BES
-0.07
personalidad
-0.07
POSITIVE LOGITS
arle
0.07
civil
0.07
북
0.07
arkan
0.07
教師
0.07
haber
0.07
ngulo
0.07
鉄
0.07
எழ
0.07
律师
0.07
Activations Density 0.054%