INDEX
Negative Logits
ilty
-0.07
犯罪
-0.07
-feature
-0.07
Those
-0.06
Viol
-0.06
Choosing
-0.06
arisen
-0.06
Maximum
-0.06
STOP
-0.06
mart
-0.06
POSITIVE LOGITS
發
0.07
тик
0.07
(per
0.06
活動
0.06
aaa
0.06
.named
0.06
ソ
0.06
віт
0.06
vog
0.06
соци
0.06
Activations Density 0.041%