INDEX
Negative Logits
XXX
-0.07
SUN
-0.07
congressman
-0.06
LAT
-0.06
dessert
-0.06
(Auth
-0.06
_processor
-0.06
embarrassment
-0.06
丝路
-0.06
discern
-0.06
POSITIVE LOGITS
冁
0.08
pornofilm
0.07
UInt
0.07
phê
0.07
갑
0.07
игр
0.07
.amazon
0.07
也有很多
0.07
홑
0.07
kep
0.07
Activations Density 0.004%