INDEX
Negative Logits
effectiveness
-0.06
界
-0.06
'.↵
-0.06
(↵
-0.06
419
-0.06
iting
-0.06
ull
-0.06
?"↵
-0.05
acknowledgment
-0.05
'↵
-0.05
POSITIVE LOGITS
"))
0.07
']],
0.07
]\
0.07
}')
0.07
)
0.07
')
0.07
]))
0.07
])]
0.07
")}
0.07
'])
0.07
Activations Density 0.088%