INDEX
Negative Logits
Orange
-0.08
oux
-0.07
LP
-0.07
铋
-0.07
朏
-0.07
ux
-0.07
統
-0.07
eventId
-0.07
IRA
-0.07
橘
-0.06
POSITIVE LOGITS
ساط
0.08
s
0.07
我在
0.07
华盛顿
0.07
马云
0.07
simulate
0.07
已成为
0.07
сы
0.06
.build
0.06
function
0.06
Activations Density 0.012%