INDEX
Negative Logits
_SYSTEM
-0.07
с
-0.07
,都
-0.06
نس
-0.06
exploited
-0.06
chores
-0.06
avoid
-0.06
раск
-0.06
ियत
-0.06
telling
-0.06
POSITIVE LOGITS
söylem
0.07
FI
0.06
'':↵
0.06
انون
0.06
'''↵↵
0.06
počtu
0.06
Messaging
0.06
Administrative
0.06
Rew
0.06
sigh
0.06
Activations Density 0.009%