INDEX
Negative Logits
can't
-0.08
Fake
-0.08
substit
-0.08
plugging
-0.08
Fake
-0.08
substitution
-0.07
incorrectly
-0.07
fake
-0.07
acabou
-0.07
sticks
-0.07
POSITIVE LOGITS
-disciplinary
0.09
dieses
0.09
-government
0.09
政府
0.09
-sector
0.09
Dieses
0.09
采取
0.09
Proposal
0.09
ioxide
0.09
გულის
0.09
Activations Density 0.019%