INDEX
Negative Logits
vere
-0.07
xce
-0.07
_patches
-0.06
heat
-0.06
igator
-0.06
erse
-0.06
ges
-0.06
pest
-0.06
Fe
-0.06
fres
-0.06
POSITIVE LOGITS
U
0.09
u
0.08
y
0.08
0.08
и
0.08
unl
0.08
I
0.08
い
0.07
uh
0.07
un
0.07
Activations Density 0.040%
vere
xce
_patches
heat
igator
erse
ges
pest
Fe
fres
U
u
y
и
unl
I
い
uh
un