INDEX
Explanations
references to people, social interactions, and exclusivity in various contexts
New Auto-Interp
Negative Logits
rése
-0.69
esetben
-0.56
vastaan
-0.54
tárgy
-0.54
nélk
-0.53
kereszt
-0.52
éről
-0.52
helyzet
-0.51
felé
-0.51
sitä
-0.51
POSITIVE LOGITS
Az
0.73
:✨
0.71
Ez
0.66
Minden
0.65
насељу
0.64
És
0.60
NUMX
0.60
Egy
0.60
Azt
0.60
Meg
0.59
Activations Density 0.041%