INDEX
Negative Logits
retom
-0.09
Με
-0.08
της
-0.08
marts
-0.08
литера
-0.07
مطالعه
-0.07
�
-0.07
cerias
-0.07
talla
-0.07
keys
-0.07
POSITIVE LOGITS
questionable
0.10
innoc
0.09
civilians
0.09
Japan
0.08
creepy
0.08
jailbreak
0.08
Sov
0.08
harmless
0.08
adults
0.08
Holocaust
0.08
Activations Density 0.005%