INDEX
Negative Logits
hermano
-0.09
naughty
-0.08
.Expression
-0.08
correto
-0.08
Speedway
-0.08
.expression
-0.08
Year's
-0.08
promedio
-0.08
Einkommen
-0.08
Hans
-0.08
POSITIVE LOGITS
芽
0.08
ometer
0.08
tann
0.08
dent
0.08
sup
0.08
woven
0.07
ega
0.07
lens
0.07
rings
0.07
zers
0.07
Activations Density 0.016%