INDEX
Negative Logits
rak
-0.08
Sex
-0.08
-0.07
Quentin
-0.07
鸡
-0.07
sex
-0.07
מד
-0.07
sexes
-0.07
salut
-0.07
Spray
-0.07
POSITIVE LOGITS
wrongdoing
0.10
capitalism
0.09
whistle
0.09
čí
0.08
保証
0.08
workplace
0.08
safegu
0.08
blower
0.08
upheld
0.08
ultime
0.08
Activations Density 0.005%