INDEX
Negative Logits
개발
-0.07
SDS
-0.07
especific
-0.07
chir
-0.07
Doctors
-0.07
%',↵
-0.07
quest
-0.06
amateur
-0.06
已是
-0.06
葰
-0.06
POSITIVE LOGITS
抢劫
0.07
דת
0.07
踢
0.07
violence
0.07
_documents
0.07
ꦏ
0.07
的通知
0.07
מאה
0.07
должен
0.07
bondage
0.07
Activations Density 0.002%