INDEX
Negative Logits
_PAY
-0.08
Spann
-0.08
↵ ↵
-0.08
avale
-0.08
Gmb
-0.07
_IDS
-0.07
↵ ↵
-0.07
Favor
-0.07
Gere
-0.07
热
-0.07
POSITIVE LOGITS
eventual
0.08
そして
0.08
another
0.08
voila
0.08
vice
0.08
fewer
0.07
Bye
0.07
matter
0.07
sony
0.07
massacre
0.07
Activations Density 0.036%