INDEX
Negative Logits
nid
-0.08
اعلان
-0.08
först
-0.07
ychwan
-0.07
mitig
-0.07
_eff
-0.07
disturb
-0.07
kuongeza
-0.07
ಆರೋಪ
-0.07
atroc
-0.07
POSITIVE LOGITS
-components
0.08
한번
0.08
ත්ත
0.08
உ
0.07
.APPLICATION
0.07
Barker
0.07
@",
0.07
shedding
0.07
營
0.07
Вы
0.07
Activations Density 0.002%