INDEX
Negative Logits
urin
0.27
’
0.26
Q
0.26
var
0.25
name
0.25
G
0.25
ume
0.25
Place
0.24
ref
0.24
oldo
0.24
POSITIVE LOGITS
evils
0.31
棉
0.30
⺠
0.29
🙎
0.29
injustices
0.28
Shit
0.28
unapolog
0.28
喟
0.28
ंपरिक
0.28
雱
0.27
Activations Density 0.003%