INDEX
Negative Logits
总觉得
-0.07
PLE
-0.07
OLUM
-0.07
elm
-0.06
.PUT
-0.06
diffé
-0.06
考える
-0.06
aurant
-0.06
饭
-0.06
ADMIN
-0.06
POSITIVE LOGITS
cruelty
0.07
morale
0.07
_g
0.07
eid
0.07
在美国
0.06
gob
0.06
SMA
0.06
action
0.06
sho
0.06
acades
0.06
Activations Density 0.040%