INDEX
Negative Logits
Detection
-0.08
运用
-0.07
complained
-0.07
\Component
-0.07
手段
-0.07
科普
-0.07
河水
-0.07
Put
-0.07
낍
-0.07
场景
-0.06
POSITIVE LOGITS
starters
0.06
lord
0.06
added
0.06
长沙市
0.06
citizen
0.06
_LA
0.06
_HEADER
0.06
grammar
0.06
UB
0.06
.like
0.06
Activations Density 0.003%