INDEX
Negative Logits
embodiment
-0.10
ifax
-0.08
retard
-0.07
anti
-0.07
antif
-0.07
rig
-0.07
rumors
-0.07
�
-0.07
sufr
-0.07
Sham
-0.07
POSITIVE LOGITS
spell
0.09
/windows
0.09
spur
0.09
(Label
0.08
("/{0.08
목록
0.08
ों
0.08
spell
0.08
.Common
0.08
pairs
0.08
Activations Density 0.009%