INDEX
Negative Logits
muster
-0.07
Oro
-0.07
outra
-0.07
шар
-0.07
_Type
-0.07
oft
-0.07
inue
-0.07
pilots
-0.07
وط
-0.07
Wichita
-0.07
POSITIVE LOGITS
cen
0.08
verdu
0.08
allé
0.08
affordability
0.08
ALE
0.07
ph
0.07
seb
0.07
운
0.07
zau
0.07
fatt
0.07
Activations Density 0.001%