INDEX
Explanations
possessive pronouns and questions
New Auto-Interp
Negative Logits
让自己
0.52
ด่า
0.51
자신이
0.50
પોતાની
0.49
அளவிற்கு
0.48
playfully
0.48
ตน
0.46
恐惧
0.45
வெறு
0.44
தனது
0.43
POSITIVE LOGITS
our
1.01
আমাদের
0.98
ہمارے
0.89
your
0.87
আমাদের
0.85
нашей
0.84
nossa
0.81
naszej
0.80
我们的
0.78
हमारे
0.77
Activations Density 0.001%