INDEX
Explanations
multilingual pronouns and possessives
New Auto-Interp
Negative Logits
!।
0.29
및
0.28
மற்றும்
0.28
および
0.27
増
0.27
আৰু
0.27
ル
0.27
(\%)
0.26
һәм
0.26
㐬
0.25
POSITIVE LOGITS
其
0.33
自己的
0.29
自己
0.29
nějak
0.28
mình
0.26
多少
0.26
不
0.26
अपने
0.25
那些
0.25
它
0.24
Activations Density 0.028%