INDEX
Negative Logits
(rd
-0.08
налич
-0.07
光荣
-0.07
'>"+
-0.07
实际
-0.07
свое
-0.07
_bc
-0.06
adget
-0.06
.REG
-0.06
(fig
-0.06
POSITIVE LOGITS
we
0.07
weigh
0.07
/payment
0.07
iw
0.07
היחיד
0.06
Myers
0.06
┲
0.06
speech
0.06
orough
0.06
ban
0.06
Activations Density 0.003%