INDEX
Explanations
email closings and placeholders
New Auto-Interp
Negative Logits
of
1.34
4
1.26
is
1.16
ai
1.03
f
1.00
r
1.00
er
0.96
"
0.96
v
0.94
ja
0.93
POSITIVE LOGITS
ל
1.77
י
1.36
یر
1.16
یک
1.14
נ
1.08
おそらく
1.07
ב
1.05
ע
1.04
なっている
1.03
یت
1.00
Activations Density 0.203%