INDEX
Negative Logits
obscene
-0.08
ılıyor
-0.08
_hard
-0.08
制品
-0.08
(nome
-0.07
觚
-0.07
........
-0.07
vết
-0.07
(MenuItem
-0.07
tonight
-0.07
POSITIVE LOGITS
complaining
0.08
達
0.07
l
0.07
住在
0.07
ἂ
0.07
準
0.07
compass
0.07
SP
0.07
Their
0.07
[url
0.07
Activations Density 0.005%