INDEX
Negative Logits
Koreans
-0.07
nudity
-0.07
Hebrew
-0.07
itone
-0.07
Supply
-0.07
ливі
-0.06
kinky
-0.06
ixmap
-0.06
filtr
-0.06
Naruto
-0.06
POSITIVE LOGITS
[Test
0.06
distributions
0.06
تلك
0.06
QPCP
0.06
stash
0.06
kurtul
0.05
discretion
0.05
LOAT
0.05
paredStatement
0.05
index
0.05
Activations Density 0.010%