INDEX
Negative Logits
s
0.23
E
0.21
ες
0.20
fers
0.18
effet
0.18
L
0.18
Increased
0.18
S
0.18
0.18
Lo
0.18
POSITIVE LOGITS
what
0.28
why
0.27
bagaimana
0.26
him
0.26
cómo
0.26
hvad
0.24
kenapa
0.24
forskj
0.24
hvordan
0.24
whereabouts
0.24
Activations Density 0.043%