INDEX
Explanations
French subjects and negation
New Auto-Interp
Negative Logits
wenden
0.93
ornare
0.90
nachhalt
0.89
implementación
0.89
käyttö
0.88
شدند
0.85
protezione
0.85
ombil
0.84
tätig
0.84
ificar
0.83
POSITIVE LOGITS
ne
0.97
y
0.82
ва
0.79
נ
0.72
se
0.71
n
0.70
soul
0.68
met
0.66
се
0.66
est
0.66
Activations Density 0.033%