INDEX
Negative Logits
Nero
-0.09
Ryan
-0.09
歡
-0.08
ă
-0.08
धान
-0.08
_nt
-0.08
Bonus
-0.08
ópt
-0.08
ært
-0.08
周
-0.08
POSITIVE LOGITS
pl
0.13
Pl
0.09
pl
0.09
PL
0.09
(pl
0.09
pli
0.08
snow
0.08
大厅
0.08
Pig
0.08
pl
0.08
Activations Density 0.000%
Nero
Ryan
歡
ă
धान
_nt
Bonus
ópt
ært
周
pl
Pl
pl
PL
(pl
pli
snow
大厅
Pig
pl