INDEX
Negative Logits
Cole
-0.08
ż
-0.07
submissive
-0.07
fkk
-0.07
-bed
-0.07
agascar
-0.07
nghĩ
-0.07
944
-0.07
671
-0.07
676
-0.06
POSITIVE LOGITS
↵ ↵
0.08
)}"↵
0.06
service
0.06
_SCHEMA
0.06
↵ ↵
0.06
(IService
0.05
↵ ↵
0.05
Command
0.05
unnatural
0.05
[…]↵↵
0.05
Activations Density 0.000%