INDEX
Negative Logits
endorsing
-0.08
رب
-0.07
phet
-0.07
etten
-0.07
此人
-0.07
ожет
-0.07
皇上
-0.07
蛹
-0.07
桫
-0.07
生活习惯
-0.07
POSITIVE LOGITS
�
0.07
.aw
0.07
邓小平
0.07
AW
0.07
لاحظ
0.07
NL
0.07
忐
0.07
.Do
0.07
tweeted
0.06
lanes
0.06
Activations Density 0.001%