INDEX
Negative Logits
bef
-0.08
correlations
-0.07
आफ
-0.07
imperative
-0.07
revered
-0.07
(r
-0.07
-x
-0.07
atrice
-0.07
/log
-0.07
lij
-0.07
POSITIVE LOGITS
pens
0.08
Ming
0.08
گفت
0.08
Gale
0.08
бед
0.07
ві
0.07
Karin
0.07
Ky
0.07
athed
0.07
Procur
0.07
Activations Density 0.001%