INDEX
Negative Logits
Canary
-0.07
stacks
-0.07
bang
-0.06
drastic
-0.06
)->
-0.06
速度
-0.06
xb
-0.06
bab
-0.06
VB
-0.06
hta
-0.06
POSITIVE LOGITS
journalism
0.07
ترکی
0.07
#
0.07
người
0.07
ا
0.06
ιχ
0.06
олот
0.06
disillusion
0.06
Lorem
0.06
irlines
0.06
Activations Density 0.004%