INDEX
Negative Logits
RR
-0.08
father
-0.08
Aaron
-0.07
train
-0.07
itur
-0.07
.yahoo
-0.07
Henry
-0.07
عد
-0.07
John
-0.07
.Profile
-0.06
POSITIVE LOGITS
Ms
0.13
Ms
0.08
passwd
0.06
slime
0.06
подс
0.06
".$
0.06
niece
0.06
Me
0.06
uchsia
0.06
yne
0.06
Activations Density 0.002%