INDEX
Explanations
demonstrative pronouns followed by nouns
New Auto-Interp
Negative Logits
ra
2.38
에
2.17
ist
2.14
ik
2.03
rh
1.96
ра
1.94
కు
1.93
rz
1.92
lığ
1.91
に
1.84
POSITIVE LOGITS
い
2.34
fleste
2.33
ਰ
2.20
amelyek
2.13
principales
2.05
வற்றை
2.02
kurie
2.02
ीय
2.00
habilidades
1.96
jų
1.94
Activations Density 0.217%