INDEX
Negative Logits
umz
-0.08
Elimin
-0.08
-0.07
begrepen
-0.07
Terr
-0.07
Ergän
-0.07
azu
-0.07
darunter
-0.07
vw
-0.07
uerte
-0.07
POSITIVE LOGITS
suivante
0.08
Bog
0.08
怀
0.08
XI
0.08
Bog
0.07
beginnings
0.07
FLAGS
0.07
Joh
0.07
兆
0.07
Rome
0.07
Activations Density 0.163%