INDEX
Negative Logits
鐮
0.33
獼
0.31
螓
0.31
鈽
0.30
윕
0.30
撣
0.29
磔
0.29
錨
0.29
鉭
0.29
াকিং
0.29
POSITIVE LOGITS
and
0.29
_
0.29
,
0.26
indulge
0.26
exh
0.24
और
0.24
↵↵
0.23
&
0.23
stuffs
0.23
indulged
0.23
Activations Density 0.040%
鐮
獼
螓
鈽
윕
撣
磔
錨
鉭
াকিং
and
_
,
indulge
exh
और
↵↵
&
stuffs
indulged