INDEX
Negative Logits
aide
-0.07
매
-0.07
Male
-0.07
male
-0.07
animals
-0.06
бес
-0.06
uracy
-0.06
Glory
-0.06
-support
-0.06
ฝ
-0.06
POSITIVE LOGITS
مدیریت
0.07
suf
0.07
�
0.06
vf
0.06
.iter
0.06
reply
0.06
-proof
0.06
_TEM
0.06
オリ
0.06
ـ
0.06
Activations Density 0.093%