INDEX
Negative Logits
Charge
-0.07
Paper
-0.07
Comp
-0.07
class
-0.07
不负
-0.06
COM
-0.06
Token
-0.06
-0.06
環
-0.06
Feedback
-0.06
POSITIVE LOGITS
诜
0.09
逝世
0.08
sdale
0.08
ようになりました
0.08
المتعل
0.07
ilinx
0.07
nuova
0.07
隐隐
0.07
战斗机
0.07
멱
0.07
Activations Density 0.060%