INDEX
Negative Logits
lobbying
-0.09
推广
-0.08
sic
-0.08
hosp
-0.08
char
-0.07
_bus
-0.07
bounds
-0.07
enumerate
-0.07
PNG
-0.07
长龙
-0.07
POSITIVE LOGITS
hinge
0.10
conditional
0.10
呻吟
0.09
hinges
0.09
joch
0.08
fool
0.08
(trigger
0.08
conditional
0.08
gating
0.08
entscheiden
0.08
Activations Density 0.002%