INDEX
Negative Logits
ance
-0.29
mi
-0.28
folk
-0.27
ANCE
-0.27
itel
-0.26
arts
-0.26
æ£ĺ
-0.26
hé
-0.26
protest
-0.26
(mi
-0.26
POSITIVE LOGITS
ä¼ļè®®ä¸Ĭ
0.30
产ä¸ļéĽĨèģļ
0.28
好人
0.28
ä¼ļè®®
0.27
·»
0.27
ulus
0.26
该项
0.26
ocrates
0.26
主ä¸ļ
0.25
èĻı
0.25
Activations Density 0.004%