INDEX
Negative Logits
Ui
-0.07
muj
-0.07
xad
-0.07
ROS
-0.07
arma
-0.06
_IN
-0.06
Bravo
-0.06
籽
-0.06
我个人
-0.06
Pip
-0.06
POSITIVE LOGITS
滉
0.07
disgusting
0.07
앤
0.07
וצאות
0.07
כיום
0.07
一顿
0.07
一眼
0.07
鸨
0.07
🦄
0.07
phó
0.07
Activations Density 0.003%