INDEX
Negative Logits
各种
-0.08
-
-0.07
-
-0.07
наполн
-0.07
.must
-0.07
及
-0.07
linger
-0.07
various
-0.07
以及
-0.06
orgulho
-0.06
POSITIVE LOGITS
treating
0.13
Treat
0.12
treated
0.12
Adjusted
0.12
treat
0.12
rewritten
0.11
redef
0.11
virtual
0.11
Treat
0.11
versione
0.11
Activations Density 0.069%