INDEX
Negative Logits
uters
-0.07
']=='
-0.06
앙
-0.06
:]↵
-0.06
Reality
-0.06
_observer
-0.06
الب
-0.06
educ
-0.06
matcher
-0.06
_checks
-0.06
POSITIVE LOGITS
deport
0.07
قهر
0.07
plantation
0.07
Чем
0.06
Carlton
0.06
paving
0.06
.slf
0.06
utta
0.06
wirk
0.06
insulting
0.06
Activations Density 0.034%