INDEX
Negative Logits
|m
-0.07
(J
-0.07
lekker
-0.07
lies
-0.07
他是
-0.07
奖励
-0.07
_udp
-0.07
"T
-0.07
";↵↵↵
-0.07
Judge
-0.06
POSITIVE LOGITS
-shop
0.08
calend
0.07
𝔬
0.07
manufact
0.07
picks
0.07
wró
0.07
�
0.07
adicion
0.07
𝘖
0.06
Picks
0.06
Activations Density 0.001%