INDEX
Negative Logits
Pen
-0.08
pesticides
-0.08
words
-0.07
_pet
-0.07
underline
-0.07
lines
-0.07
Henry
-0.07
Group
-0.07
_styles
-0.07
Dist
-0.07
POSITIVE LOGITS
asier
0.07
oppers
0.07
OLER
0.07
탉
0.07
roaring
0.07
ANTITY
0.07
州区
0.07
넉
0.07
אוניב
0.07
。,
0.06
Activations Density 0.001%