INDEX
Explanations
possessive determiners in multiple languages
New Auto-Interp
Negative Logits
ामध्ये
0.51
る
0.48
아야
0.46
क्या
0.46
atleast
0.45
บบ
0.44
dome
0.43
२
0.43
бор
0.42
เตอร์
0.42
POSITIVE LOGITS
ihrer
0.50
deras
0.49
их
0.46
mechanistic
0.46
gospodar
0.46
ansk
0.45
their
0.45
kanilang
0.45
તેમના
0.44
anska
0.43
Activations Density 0.002%