INDEX
Negative Logits
vulgar
-0.08
gatherings
-0.08
excuses
-0.08
attitudes
-0.07
divisions
-0.07
exaggerated
-0.07
ex
-0.07
arrogance
-0.07
resource
-0.07
ाट
-0.07
POSITIVE LOGITS
씩
0.11
(三
0.09
πων
0.08
pangunahing
0.08
性质
0.08
线路
0.08
സർക്ക
0.08
плане
0.08
pathways
0.08
voire
0.08
Activations Density 0.011%