INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
لي
1.63
ين
1.27
ني
1.26
ви
1.08
قة
1.05
نة
1.04
رب
1.02
عي
1.01
زي
0.98
نه
0.96
POSITIVE LOGITS
।
1.81
s
1.47
I
1.33
r
1.32
I
1.31
"
1.30
c
1.29
.
1.25
ת
1.25
u
1.22
Activations Density 0.000%