INDEX
Negative Logits
�
-0.08
함
-0.08
-0.07
stereotypes
-0.07
.preview
-0.07
Jane
-0.07
لم
-0.07
Kamer
-0.07
Seattle
-0.07
管
-0.07
POSITIVE LOGITS
Bon
0.08
Ende
0.08
definit
0.08
Bon
0.08
Mor
0.07
mor
0.07
Ish
0.07
Nothing
0.07
324
0.07
()}
0.07
Activations Density 0.052%