INDEX
Negative Logits
W
1.28
N
1.19
6
1.11
S
1.09
;\
1.06
ারি
1.05
4
1.05
L
1.02
ಕ್ಕೆ
1.01
\;
1.01
POSITIVE LOGITS
w
1.29
a
1.23
에
1.18
b
1.17
ก
1.13
z
1.09
ן
1.09
ل
1.05
p
1.05
(
1.05
Activations Density 0.001%
W
N
6
S
;\
ারি
4
L
ಕ್ಕೆ
\;
w
a
에
b
ก
z
ן
ل
p
(