INDEX
Negative Logits
moral
-0.08
oath
-0.07
Executive
-0.07
בות
-0.07
是一家
-0.07
STAR
-0.07
łoż
-0.07
此事
-0.06
뉴스
-0.06
icult
-0.06
POSITIVE LOGITS
Ya
0.06
.Te
0.06
坞
0.06
Arcade
0.06
غزة
0.06
偵
0.06
游艇
0.06
퀄
0.06
血糖
0.06
흴
0.06
Activations Density 0.002%