INDEX
Negative Logits
ala
-0.07
-high
-0.07
high
-0.07
fta
-0.07
apphire
-0.07
さ
-0.07
Sty
-0.06
host
-0.06
gase
-0.06
prop
-0.06
POSITIVE LOGITS
黑人
0.09
apud
0.08
女性
0.08
wk
0.08
حوالے
0.08
ამენტ
0.08
feme
0.08
WK
0.08
weib
0.08
河南
0.08
Activations Density 0.160%