INDEX
Negative Logits
中新
-0.07
vocabulary
-0.07
不幸
-0.07
ittest
-0.07
intertwined
-0.06
imgs
-0.06
مضي
-0.06
.imp
-0.06
credit
-0.06
.take
-0.06
POSITIVE LOGITS
malls
0.08
democrat
0.07
odega
0.07
Joker
0.07
Cuomo
0.07
体现了
0.07
_processing
0.07
Hond
0.06
cabin
0.06
gp
0.06
Activations Density 0.002%