INDEX
Negative Logits
bil
-0.07
.leading
-0.07
anmeld
-0.06
Classification
-0.06
_HELPER
-0.06
STOP
-0.06
_Email
-0.06
porno
-0.06
-0.06
Variation
-0.06
POSITIVE LOGITS
insightful
0.07
socket
0.07
镇
0.07
щё
0.07
派
0.06
mal
0.06
Sunshine
0.06
ardi
0.06
щими
0.06
previously
0.06
Activations Density 0.001%