INDEX
Negative Logits
losure
-0.06
egers
-0.06
`,`
-0.06
statements
-0.06
应该
-0.06
evidently
-0.05
directive
-0.05
tous
-0.05
특별
-0.05
lector
-0.05
POSITIVE LOGITS
ISS
0.08
Sanctuary
0.08
ARRIER
0.07
kok
0.07
험
0.07
ери
0.07
岛
0.07
愛
0.07
.ST
0.07
touch
0.07
Activations Density 0.002%