INDEX
Negative Logits
True
-0.08
低估
-0.07
谓
-0.07
农民
-0.07
hit
-0.07
vlan
-0.07
LO
-0.06
㍉
-0.06
pienią
-0.06
部
-0.06
POSITIVE LOGITS
メディア
0.07
外语
0.06
italian
0.06
◑
0.06
ascript
0.06
emptied
0.06
الفرن
0.06
_contrib
0.06
الرجال
0.06
intimacy
0.06
Activations Density 0.041%