INDEX
Explanations
language roots (Russian, Spanish, English)
New Auto-Interp
Negative Logits
讓人
1.64
relato
1.39
namelijk
1.38
كله
1.35
sizin
1.29
considérable
1.29
října
1.29
totalité
1.27
iędzy
1.26
plupart
1.24
POSITIVE LOGITS
in
2.11
er
1.63
at
1.30
en
1.28
та
1.27
до
1.22
ка
1.19
ar
1.14
am
1.14
🏼
1.11
Activations Density 0.020%