INDEX
Negative Logits
케
0.26
ред
0.26
ährung
0.26
ె
0.25
ন
0.25
nq
0.24
ﮕ
0.24
ﮯ
0.24
प्रकारे
0.23
linearized
0.23
POSITIVE LOGITS
𝑟
0.28
𝑡
0.28
𝑢
0.27
𝑑
0.26
𝑚
0.26
Կ
0.25
Laat
0.24
zás
0.24
z
0.24
𝑛
0.23
Activations Density 0.009%
케
ред
ährung
ె
ন
nq
ﮕ
ﮯ
प्रकारे
linearized
𝑟
𝑡
𝑢
𝑑
𝑚
Կ
Laat
zás
z
𝑛