INDEX
Explanations
multiple languages and contexts
New Auto-Interp
Negative Logits
lari
1.15
k
1.07
te
0.97
r
0.95
exposé
0.95
n
0.91
ties
0.90
ن
0.90
lide
0.90
लया
0.90
POSITIVE LOGITS
in
1.55
ও
1.40
في
1.37
在
1.34
σε
1.29
も
1.29
도
1.27
3
1.09
در
1.02
۳
1.00
Activations Density 0.000%