INDEX
Negative Logits
manage
-0.07
Friendly
-0.07
ผ
-0.07
boon
-0.07
boost
-0.07
忙
-0.07
(__
-0.07
年中国
-0.06
预约
-0.06
dr
-0.06
POSITIVE LOGITS
למשל
0.08
Tư
0.07
disks
0.07
*)↵↵
0.07
symbols
0.07
奶粉
0.07
stairs
0.07
默默
0.07
.dtype
0.07
chosen
0.07
Activations Density 0.003%