INDEX
Negative Logits
Fine
-0.07
("",-0.07
це
-0.07
Starts
-0.07
�
-0.06
مف
-0.06
('',-0.06
Whitespace
-0.06
Polo
-0.06
sims
-0.06
POSITIVE LOGITS
notorious
0.16
infamous
0.13
notoriously
0.11
↵
0.07
↵ ↵
0.06
ietf
0.06
otr
0.06
视频
0.06
commit
0.06
historically
0.06
Activations Density 0.001%