INDEX
Negative Logits
分别
-0.08
trebalo
-0.08
मन्त्र
-0.08
little
-0.08
capital
-0.07
podéis
-0.07
Estos
-0.07
越来越
-0.07
莫
-0.07
edeut
-0.07
POSITIVE LOGITS
Unlike
0.15
unlike
0.14
contrairement
0.12
Unlike
0.12
unusually
0.11
Compared
0.10
atyp
0.10
отличие
0.10
uniquely
0.10
unparalleled
0.10
Activations Density 0.191%