INDEX
Negative Logits
Message
-0.07
.State
-0.06
POWER
-0.06
Imm
-0.06
titulo
-0.06
должно
-0.06
nov
-0.06
.correct
-0.06
Kate
-0.06
Early
-0.06
POSITIVE LOGITS
guit
0.07
ΕΧ
0.06
Да
0.06
.ticket
0.06
τικά
0.06
多
0.06
Drama
0.06
цеп
0.06
lik
0.06
antage
0.06
Activations Density 0.004%