INDEX
Negative Logits
waters
-0.08
Di
-0.08
swear
-0.08
noto
-0.08
الم
-0.08
fus
-0.07
roads
-0.07
hood
-0.07
hosp
-0.07
afs
-0.07
POSITIVE LOGITS
Hubbard
0.09
nickel
0.08
uli
0.08
matric
0.07
Provence
0.07
indefinite
0.07
rm
0.07
oux
0.07
Bat
0.07
pra
0.07
Activations Density 0.031%