INDEX
Negative Logits
Республик
-0.08
Dim
-0.07
Mu
-0.07
纯
-0.07
張貼
-0.07
Med
-0.07
_quality
-0.07
overlooking
-0.07
表
-0.07
庇
-0.07
POSITIVE LOGITS
整改措施
0.09
sagt
0.08
words
0.07
诖
0.07
言语
0.07
�
0.07
建筑材料
0.07
أغسط
0.07
moda
0.07
:UIAlert
0.07
Activations Density 0.023%