INDEX
Negative Logits
the
1.70
of
1.34
k
1.30
to
1.29
s
1.23
c
1.22
by
1.16
ל
1.14
ل
1.13
h
1.12
POSITIVE LOGITS
٥
1.09
昀
1.00
াধিকার
0.95
ilerin
0.92
есть
0.92
těch
0.89
宒
0.89
”
0.88
过程中
0.88
profiter
0.88
Activations Density 0.002%
the
of
k
to
s
c
by
ל
ل
h
٥
昀
াধিকার
ilerin
есть
těch
宒
”
过程中
profiter