INDEX
    Explanations

    sex slurs and explicit terms

    New Auto-Interp
    Negative Logits
    0.39
    范围
    0.37
     значительно
    0.37
    部の
    0.36
    部に
    0.36
    читать
    0.35
    frist
    0.35
    0.35
    0.34
    বে
    0.34
    POSITIVE LOGITS
     vomit
    0.39
    vom
    0.38
     Collins
    0.36
     squad
    0.36
    もう
    0.36
     sow
    0.36
     dreamy
    0.35
     következő
    0.35
     vomiting
    0.35
    wedge
    0.35
    Act Density 0.272%

    No Known Activations