INDEX
Negative Logits
Але
-0.07
--,
-0.06
harming
-0.06
erty
-0.06
Get
-0.06
Artifact
-0.06
discussions
-0.06
.Try
-0.06
され
-0.06
reflect
-0.06
POSITIVE LOGITS
Oversight
0.07
lebih
0.07
shown
0.07
شرایط
0.07
خوبی
0.07
Sharia
0.07
divine
0.06
жизнь
0.06
unci
0.06
visas
0.06
Activations Density 0.017%