INDEX
Negative Logits
KM
-0.08
cky
-0.07
'H
-0.07
�
-0.07
-view
-0.07
yolu
-0.06
Prog
-0.06
.issue
-0.06
zilla
-0.06
Y
-0.06
POSITIVE LOGITS
':['
0.08
/↵↵↵↵
0.07
найб
0.07
creation
0.07
}')↵↵
0.06
Lopez
0.06
%%↵
0.06
faithfully
0.06
.Are
0.06
Secret
0.06
Activations Density 0.018%