INDEX
Negative Logits
SIM
-0.08
-0.08
Nin
-0.08
ndër
-0.07
lel
-0.07
Extra
-0.07
GING
-0.07
Nim
-0.07
-extra
-0.07
签到
-0.07
POSITIVE LOGITS
因此
0.08
עדיין
0.08
Descriptor
0.08
unaffected
0.08
_descriptor
0.08
argues
0.08
legitimately
0.08
Bordeaux
0.08
idae
0.08
stakeholders
0.07
Activations Density 0.124%