INDEX
Negative Logits
REET
-0.08
biet
-0.08
coats
-0.08
borderline
-0.08
Recurring
-0.07
cosmetics
-0.07
toothpaste
-0.07
wel
-0.07
=============
-0.07
admi
-0.07
POSITIVE LOGITS
一下
0.09
击
0.08
Traveler
0.07
Ami
0.07
dulce
0.07
Duke
0.07
Boca
0.07
nud
0.07
觉
0.07
_he
0.07
Activations Density 0.005%