INDEX
Explanations
fill-in-the-blanks or underscores
New Auto-Interp
Negative Logits
می
1.01
2
0.94
은
0.90
ная
0.85
ת
0.84
واصل
0.82
は
0.81
ני
0.80
UM
0.79
ı
0.79
POSITIVE LOGITS
in
1.26
l
1.11
in
1.02
t
0.96
q
0.96
th
0.92
r
0.89
p
0.86
ionization
0.84
m
0.83
Activations Density 0.006%