INDEX
Negative Logits
cons
-0.09
主动
-0.08
또한
-0.08
甲
-0.08
力度
-0.08
Mes
-0.07
Beds
-0.07
dont
-0.07
巻
-0.07
Exper
-0.07
POSITIVE LOGITS
labor
0.08
Labour
0.08
驶
0.08
unh
0.08
lij
0.08
ν
0.07
terminar
0.07
424
0.07
Ell
0.07
units
0.07
Activations Density 0.023%