INDEX
Negative Logits
ãĤĵãģĺãĤĥãģªãģĦ
-0.27
awns
-0.26
åĽŀè´Ń
-0.25
_BOUNDS
-0.25
yourself
-0.24
为主线
-0.24
>_
-0.24
åĨįä¸Ģ次
-0.23
ãĤĭãģ¹ãģį
-0.23
sharper
-0.23
POSITIVE LOGITS
nees
0.26
{}]0.26
临
0.25
ä¸įåĬ¨
0.24
èµĶ
0.24
errat
0.24
éĹ®ä»ĸ
0.24
ho
0.24
pró
0.24
åĨ²
0.24
Activations Density 0.001%