INDEX
Explanations
sex slurs and explicit terms
New Auto-Interp
Negative Logits
部
0.39
范围
0.37
значительно
0.37
部の
0.36
部に
0.36
читать
0.35
frist
0.35
⏲
0.35
澈
0.34
বে
0.34
POSITIVE LOGITS
vomit
0.39
vom
0.38
Collins
0.36
squad
0.36
もう
0.36
sow
0.36
dreamy
0.35
következő
0.35
vomiting
0.35
wedge
0.35
Activations Density 0.272%