INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
o
1.27
s
1.24
l
1.22
:
1.17
in
1.16
u
1.11
z
1.05
a
1.05
d
1.04
st
1.01
POSITIVE LOGITS
。
1.38
ى
1.20
وم
1.19
)。
1.17
وس
1.13
ния
1.12
),
1.09
ї
1.09
า
1.08
نا
1.05
Activations Density 0.000%