INDEX
Negative Logits
harmless
-0.06
başar
-0.06
↵
-0.06
.Wait
-0.06
Discover
-0.06
Root
-0.06
Year
-0.06
________________________________
-0.06
epam
-0.06
ASP
-0.06
POSITIVE LOGITS
��
0.07
jeme
0.07
ومان
0.07
опол
0.07
_coupon
0.07
ugas
0.06
ере
0.06
svp
0.06
quis
0.06
owned
0.06
Activations Density 0.079%