INDEX
Negative Logits
Micro
-0.08
净土
-0.07
Yo
-0.07
Doctor
-0.07
مرة
-0.07
igu
-0.07
CURL
-0.07
حماس
-0.07
琴
-0.06
delete
-0.06
POSITIVE LOGITS
וכמובן
0.07
报送
0.07
'"+
0.07
有害
0.07
應用
0.07
/setup
0.06
)",↵
0.06
逮
0.06
>",
0.06
.Inter
0.06
Activations Density 0.001%