INDEX
Negative Logits
ﮮ
-0.07
év
-0.07
consulted
-0.07
.tf
-0.06
监狱
-0.06
Comb
-0.06
_Speed
-0.06
转移到
-0.06
非常明显
-0.06
bar
-0.06
POSITIVE LOGITS
0.07
order
0.07
_REFRESH
0.07
异议
0.07
古い
0.07
jokes
0.07
WHERE
0.07
treat
0.07
===
0.06
disparate
0.06
Activations Density 0.010%