INDEX
Negative Logits
rev
-0.08
spat
-0.08
iter
-0.08
revoir
-0.07
calories
-0.07
saját
-0.07
person's
-0.07
(person
-0.07
env
-0.07
jedhu
-0.07
POSITIVE LOGITS
Guys
0.09
ừ
0.08
Checkbox
0.08
ذك
0.08
ect
0.08
boys
0.08
_union
0.08
诈骗
0.08
Staats
0.08
issani
0.08
Activations Density 0.001%