INDEX
Negative Logits
�
-0.07
medidas
-0.07
abandonment
-0.06
Hung
-0.06
hoops
-0.06
indeed
-0.06
chơi
-0.06
으니
-0.06
้อ
-0.06
goed
-0.06
POSITIVE LOGITS
(stderr
0.07
,$
0.06
Vietnamese
0.06
Calvin
0.06
읍
0.06
untu
0.06
discord
0.06
laş
0.06
_formatted
0.06
////////
0.06
Activations Density 0.010%