INDEX
Explanations
possessive pronouns and ownership
New Auto-Interp
Negative Logits
eric
0.69
धक
0.68
onic
0.65
herent
0.63
சென்ற
0.63
Rücken
0.62
inschaft
0.62
汜
0.61
mogen
0.61
instructive
0.60
POSITIVE LOGITS
свои
1.16
своя
1.04
свої
0.96
свою
0.93
свое
0.90
своих
0.90
своё
0.89
अपना
0.85
their
0.84
자신이
0.83
Activations Density 0.140%