INDEX
Negative Logits
蹚
-0.07
囔
-0.07
以习近平
-0.07
_Tool
-0.07
韭菜
-0.06
Hp
-0.06
_yes
-0.06
˘
-0.06
西班
-0.06
onomy
-0.06
POSITIVE LOGITS
harassment
0.07
Len
0.07
Disorder
0.07
事故发生
0.07
_frame
0.07
EQUAL
0.06
_od
0.06
overlook
0.06
transform
0.06
ELECT
0.06
Activations Density 0.013%