INDEX
Negative Logits
◆
-0.07
}${-0.06
(${-0.06
.xy
-0.06
harming
-0.06
@[
-0.06
jihad
-0.06
.lb
-0.06
orang
-0.06
menacing
-0.06
POSITIVE LOGITS
.CON
0.07
_refs
0.07
дер
0.06
Decoder
0.06
maid
0.06
der
0.06
abort
0.06
rumours
0.06
str
0.06
�
0.06
Activations Density 0.004%