INDEX
Negative Logits
tud
-0.07
ock
-0.07
받
-0.06
zes
-0.06
undos
-0.06
Bair
-0.06
Wat
-0.06
.enemy
-0.06
gere
-0.06
ی
-0.06
POSITIVE LOGITS
<H
0.06
Captain
0.06
.",↵
0.06
.';↵
0.06
emotionally
0.06
'#
0.06
'=',
0.06
requisite
0.06
Captain
0.06
"]");↵
0.06
Activations Density 0.002%