INDEX
Explanations
possessive pronouns across languages
New Auto-Interp
Negative Logits
diadakan
0.42
obsessed
0.40
obsess
0.40
コ
0.40
vaguely
0.39
私は
0.39
proletariat
0.39
sab
0.39
我不
0.39
我自己
0.39
POSITIVE LOGITS
naš
0.66
our
0.63
unserer
0.63
unseres
0.63
naszych
0.60
हमारी
0.57
нашего
0.57
naszego
0.57
我们的
0.57
nosso
0.57
Activations Density 0.160%