INDEX
    Explanations

    that depict explicit sexual acts

    New Auto-Interp
    Negative Logits
     że
    0.48
     että
    0.48
     ότι
    0.45
    的是
    0.42
     bahwa
    0.41
     যে
    0.40
     že
    0.39
    ថា
    0.37
    ว่า
    0.36
     दट
    0.36
    POSITIVE LOGITS
     they
    0.60
    soever
    0.56
    elbe
    0.48
    ched
    0.46
     heißt
    0.45
    વો
    0.44
    mashtami
    0.44
     gehen
    0.43
     আছেন
    0.43
     옳은
    0.42
    Act Density 0.008%

    No Known Activations