INDEX
Negative Logits
bypass
-0.08
brakk
-0.07
poly
-0.07
šov
-0.07
итет
-0.06
imates
-0.06
7
-0.06
3
-0.06
۳۰
-0.06
Ish
-0.06
POSITIVE LOGITS
Serena
0.07
cider
0.07
\Url
0.07
Ost
0.06
_DESC
0.06
(cert
0.06
shaving
0.06
Frau
0.06
에서
0.06
>",
0.06
Activations Density 0.027%