INDEX
Negative Logits
-girl
-0.08
girls
-0.07
electron
-0.07
信号
-0.06
uel
-0.06
lder
-0.06
Infantry
-0.06
}else
-0.06
Handy
-0.06
titre
-0.06
POSITIVE LOGITS
(...
0.07
庖
0.07
(policy
0.07
减排
0.07
compét
0.07
ˋ
0.07
奥巴马
0.07
_UN
0.07
🗽
0.06
밈
0.06
Activations Density 0.034%