INDEX
Negative Logits
innocent
-0.08
perce
-0.08
embodiment
-0.07
Across
-0.07
advertisement
-0.07
AKA
-0.07
riff
-0.07
aquello
-0.07
implying
-0.07
Tama
-0.07
POSITIVE LOGITS
attest
0.09
里的
0.08
Lep
0.08
冲
0.08
moms
0.08
runter
0.07
olin
0.07
iaux
0.07
播放
0.07
оз
0.07
Activations Density 0.041%