INDEX
Negative Logits
sut
-0.28
(shift
-0.27
nesc
-0.27
sar
-0.27
Toilet
-0.27
shift
-0.27
èIJ½ä¸ĭ
-0.25
nutshell
-0.25
_shift
-0.25
åħ¶ä¸Ńä¹ĭä¸Ģ
-0.25
POSITIVE LOGITS
usk
0.27
Cong
0.27
p
0.27
ettes
0.27
def
0.26
å¥ī
0.25
erta
0.24
NBC
0.24
ella
0.24
Cong
0.24
Activations Density 0.100%