INDEX
Explanations
numbers, dates, and punctuation
New Auto-Interp
Negative Logits
et
0.32
on
0.31
u
0.30
in
0.30
il
0.29
f
0.29
k
0.29
i
0.29
m
0.29
ik
0.29
POSITIVE LOGITS
،
0.18
لي
0.16
不仅仅
0.16
AR
0.16
、
0.16
}$$
0.15
}*/
0.15
ları
0.15
وازي
0.15
}";
0.14
Activations Density 0.032%