INDEX
Negative Logits
principaux
-0.09
øte
-0.08
write
-0.08
begr
-0.08
issus
-0.08
pell
-0.07
altos
-0.07
liners
-0.07
infl
-0.07
빌
-0.07
POSITIVE LOGITS
بالج
0.08
0.08
и
0.08
vaihtoe
0.08
、この
0.07
opción
0.07
0.07
سبة
0.07
cosa
0.07
competing
0.07
Activations Density 0.025%