INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
وم
1.23
ب
1.23
ى
1.23
ك
1.21
ف
1.20
ي
1.13
)。
1.11
,“
1.08
%。
1.06
к
1.06
POSITIVE LOGITS
u
1.69
t
1.59
es
1.55
is
1.49
ای
1.38
id
1.37
a
1.36
g
1.33
l
1.25
r
1.23
Activations Density 0.000%