INDEX
Negative Logits
loft
-0.07
_tok
-0.06
iffer
-0.06
弨
-0.06
��
-0.06
יבל
-0.06
פרי
-0.06
Saudi
-0.06
nieuwe
-0.06
_smooth
-0.06
POSITIVE LOGITS
/payment
0.07
Lesson
0.07
left
0.07
horrors
0.07
doesn
0.07
tyr
0.07
每个
0.07
一半
0.06
vertise
0.06
伤亡
0.06
Activations Density 0.002%