INDEX
Negative Logits
зда
-0.08
wła
-0.07
HVAC
-0.07
SHOW
-0.07
Infant
-0.06
ivil
-0.06
abet
-0.06
hind
-0.06
fec
-0.06
swallow
-0.06
POSITIVE LOGITS
masturbation
0.06
aerospace
0.06
�
0.06
为了
0.06
freelance
0.06
confronted
0.06
Thing
0.06
�
0.06
advisers
0.06
thuế
0.06
Activations Density 0.005%