INDEX
Negative Logits
prog
-0.09
tad
-0.08
dont
-0.07
aparentemente
-0.07
-induced
-0.07
sz
-0.07
Prog
-0.07
turned
-0.07
allegedly
-0.07
却
-0.07
POSITIVE LOGITS
caution
0.09
disclaim
0.09
注意
0.09
heed
0.09
помнить
0.08
intangible
0.08
избег
0.08
beachten
0.08
避免
0.08
myös
0.08
Activations Density 0.092%