INDEX
Negative Logits
頭
-0.07
*******↵
-0.07
steady
-0.07
南通
-0.07
<|im_start|>
-0.06
뭔
-0.06
えた
-0.06
.kill
-0.06
۩
-0.06
잰
-0.06
POSITIVE LOGITS
svo
0.08
罚款
0.07
ój
0.07
onitor
0.07
psycho
0.07
climate
0.07
dır
0.07
participação
0.07
اريخ
0.07
Signature
0.07
Activations Density 0.001%