INDEX
Negative Logits
runde
-0.08
Moż
-0.08
/User
-0.08
<User
-0.08
LJ
-0.07
Liz
-0.07
Lud
-0.07
Можно
-0.07
Publ
-0.07
-Le
-0.07
POSITIVE LOGITS
/or
0.09
なく
0.08
pais
0.08
fut
0.08
immoral
0.07
/ou
0.07
cis
0.07
خوا
0.07
optimizer
0.07
extremists
0.07
Activations Density 0.115%