INDEX
Negative Logits
TW
-0.09
�
-0.08
unt
-0.08
אה
-0.07
reciproc
-0.07
don
-0.07
ов
-0.07
nep
-0.07
secur
-0.07
appreci
-0.07
POSITIVE LOGITS
Hayes
0.08
孔
0.08
.bootstrap
0.07
lc
0.07
Humans
0.07
Resid
0.07
Roch
0.07
منة
0.07
Hole
0.07
терес
0.07
Activations Density 0.002%