INDEX
Explanations
people's choices and actions
New Auto-Interp
Negative Logits
yourself
0.93
yourself
0.84
Yourself
0.75
your
0.68
your
0.67
你自己
0.63
あなたは
0.63
আপনার
0.61
あなたの
0.61
ваша
0.61
POSITIVE LOGITS
themselves
1.50
தங்கள்
0.94
తమ
0.91
ತಮ್ಮ
0.88
নিজেদের
0.84
leurs
0.81
mselves
0.80
ойношот
0.80
ihre
0.79
கொண்டனர்
0.79
Activations Density 0.024%