INDEX
Explanations
references to males in a general or informal context
New Auto-Interp
Negative Logits
ese
-0.08
ment
-0.07
HING
-0.07
shire
-0.07
ibold
-0.07
iger
-0.07
mente
-0.07
nt
-0.07
@"";↵
-0.07
ableView
-0.07
POSITIVE LOGITS
/g
0.10
hattan
0.08
umen
0.07
anan
0.07
enerator
0.07
who
0.07
iac
0.07
liner
0.07
Alv
0.07
hunt
0.07
Activations Density 0.016%