INDEX
Negative Logits
Damian
-0.09
Gut
-0.08
donn
-0.08
Sebastian
-0.08
Lider
-0.08
Sd
-0.07
говор
-0.07
dealings
-0.07
Samuel
-0.07
Muslim
-0.07
POSITIVE LOGITS
нар
0.08
HI
0.08
�
0.07
Parm
0.07
Cine
0.07
�
0.07
washers
0.07
עלות
0.07
折
0.07
Lam
0.07
Activations Density 0.001%