INDEX
Explanations
something followed by personal pronouns
New Auto-Interp
Negative Logits
стана
0.40
وذلك
0.38
Это
0.37
или
0.37
Это
0.37
Этот
0.37
மற்றும்
0.36
Because
0.34
这就是
0.34
olmad
0.34
POSITIVE LOGITS
everyone
0.61
we
0.61
you
0.59
people
0.52
anyone
0.49
ที่จะ
0.48
everybody
0.48
youll
0.46
many
0.46
wielu
0.46
Activations Density 0.018%