INDEX
Negative Logits
Changes
-0.08
555
-0.07
52
-0.07
git
-0.07
(Debug
-0.07
elusive
-0.07
_re
-0.07
loca
-0.07
municipalities
-0.07
-0.07
POSITIVE LOGITS
hateful
0.11
hatred
0.10
공격
0.10
haine
0.10
violence
0.09
fuels
0.09
�
0.09
ആക്രമ
0.09
Oromoo
0.09
extremist
0.09
Activations Density 0.005%