INDEX
Negative Logits
idde
-0.09
admitting
-0.08
uu
-0.07
کی
-0.07
혼
-0.07
firmy
-0.07
parted
-0.07
вести
-0.07
pray
-0.07
affa
-0.07
POSITIVE LOGITS
福利
0.08
WS
0.08
jaw
0.07
multis
0.07
fem
0.07
hel
0.07
人
0.07
mandib
0.07
stk
0.07
款
0.07
Activations Density 0.107%