INDEX
Negative Logits
代çIJĨ
-0.28
Pap
-0.27
pap
-0.27
Papers
-0.26
ä»ĭ
-0.26
empor
-0.25
åIJij举
-0.25
ä¸ĬæĿ¥
-0.25
éĢIJ
-0.25
properties
-0.24
POSITIVE LOGITS
tps
0.27
derog
0.27
legs
0.26
smo
0.25
Ĩµ
0.25
ç¢Ł
0.25
è·Łå¥¹
0.25
åĤį
0.24
è¿ĻåIJį
0.24
drs
0.24
Activations Density 0.027%