INDEX
Negative Logits
Anth
-0.08
For
-0.07
Sof
-0.07
uar
-0.07
<<"
-0.06
toh
-0.06
]"
-0.06
cow
-0.06
//
-0.06
incorporate
-0.06
POSITIVE LOGITS
yelled
0.07
&M
0.06
videot
0.06
_REPO
0.06
jeden
0.06
(水
0.06
servants
0.06
sexism
0.06
static
0.06
NEL
0.06
Activations Density 0.002%