INDEX
Negative Logits
Dad
-0.09
Pach
-0.09
Eve
-0.08
welfare
-0.08
brown
-0.07
Ward
-0.07
haven
-0.07
Neues
-0.07
coc
-0.07
पू
-0.07
POSITIVE LOGITS
ruta
0.09
Harr
0.08
فر
0.07
転
0.07
unin
0.07
dispers
0.07
الب
0.07
kaart
0.07
hands
0.07
علي
0.07
Activations Density 0.014%