INDEX
Negative Logits
sts
-0.06
_BUFF
-0.06
윤
-0.06
Für
-0.06
publisher
-0.06
Artifact
-0.06
Sur
-0.06
designers
-0.06
terior
-0.06
cautioned
-0.06
POSITIVE LOGITS
misuse
0.07
recalled
0.07
nghiên
0.07
bat
0.06
(layer
0.06
�
0.06
alone
0.06
认为
0.06
็นการ
0.06
__)↵
0.06
Activations Density 0.036%