INDEX
Negative Logits
bulb
-0.08
떻
-0.07
Spell
-0.07
Paypal
-0.07
Personal
-0.07
zn
-0.07
Payne
-0.07
_ph
-0.07
퓨
-0.07
kneeling
-0.07
POSITIVE LOGITS
回答
0.07
)data
0.07
_ARGUMENT
0.07
.gl
0.07
大理
0.07
cared
0.07
跎
0.07
//@
0.07
Regel
0.06
LGBTQ
0.06
Activations Density 0.006%