INDEX
Negative Logits
to
0.99
t
0.84
to
0.77
w
0.72
R
0.70
l
0.68
законом
0.63
d
0.62
s
0.61
S
0.61
POSITIVE LOGITS
ни
0.71
ності
0.61
unsere
0.59
ِينَ
0.59
Gospod
0.58
くな
0.57
يم
0.57
ыз
0.57
asiti
0.56
يمان
0.56
Activations Density 0.002%
to
t
to
w
R
l
законом
d
s
S
ни
ності
unsere
ِينَ
Gospod
くな
يم
ыз
asiti
يمان