INDEX
Negative Logits
ä½Ĩåį´
-0.32
ä½ĨæĪij们
-0.32
ä½Ĩåľ¨
-0.26
è·ŁæĪij说
-0.26
ä½Ĩä»ĸ们
-0.25
çļĦ身份
-0.25
suggest
-0.25
jourd
-0.25
but
-0.25
æ¶Ī失
-0.25
POSITIVE LOGITS
å¼Ħ
0.29
ainty
0.26
ISM
0.26
ThanOr
0.26
icism
0.25
equip
0.25
aders
0.25
vanced
0.25
对æłĩ
0.24
éli
0.24
Activations Density 0.014%