INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
یی
1.36
ری
1.30
ן
1.11
ین
1.05
یه
1.03
ння
1.02
ی
1.02
ینگ
1.01
یان
1.01
༦
0.99
POSITIVE LOGITS
a
1.37
好
1.28
在
1.24
”
1.19
في
1.15
N
1.15
on
1.11
in
1.10
r
1.10
et
1.09
Activations Density 0.000%