INDEX
Negative Logits
concent
-0.07
deduct
-0.07
antage
-0.07
dishes
-0.07
maga
-0.07
Nr
-0.07
Reasons
-0.07
-host
-0.07
Compar
-0.07
Mun
-0.07
POSITIVE LOGITS
flowing
0.08
ELSE
0.08
valent
0.08
slopes
0.07
behalve
0.07
leef
0.07
töl
0.07
erval
0.07
.Activity
0.07
harmless
0.07
Activations Density 0.004%