INDEX
Negative Logits
कु�
-0.08
suitable
-0.07
Льв
-0.07
准确
-0.07
FFFFFFFF
-0.07
Indianapolis
-0.07
ಆಸ
-0.07
δ
-0.07
म्हणून
-0.07
iep
-0.07
POSITIVE LOGITS
else's
0.10
person's
0.09
oppression
0.09
determinada
0.09
someone's
0.09
donnée
0.08
adi
0.08
Douglas
0.08
schein
0.08
vile
0.07
Activations Density 0.043%