INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
۹
1.45
۵
1.25
א
1.23
та
1.18
)।
1.17
ی
1.16
।’
1.13
ری
1.09
"।
1.09
an
1.09
POSITIVE LOGITS
u
1.97
er
1.70
e
1.48
ur
1.46
ed
1.42
o
1.40
ul
1.35
.
1.32
og
1.29
n
1.27
Activations Density 0.000%