INDEX
Negative Logits
exploited
-0.08
927
-0.08
Costs
-0.08
Kosten
-0.08
희
-0.07
Ingen
-0.07
coûts
-0.07
Donc
-0.07
ఎవ
-0.07
Donc
-0.07
POSITIVE LOGITS
punctuation
0.10
emojis
0.09
peppers
0.09
traditional
0.09
literal
0.08
verbal
0.08
keyword
0.08
refers
0.08
b
0.08
pacing
0.08
Activations Density 0.009%