INDEX
    Explanations

    prohibiting generating harmful content

    New Auto-Interp
    Negative Logits
     Preheat
    0.37
     Molly
    0.36
     other
    0.36
     $\
    0.34
     Yes
    0.34
     paused
    0.34
    el
    0.33
     others
    0.33
     Hay
    0.33
     الآخر
    0.33
    POSITIVE LOGITS
     цього
    0.63
     этого
    0.56
     această
    0.56
     இதுபோன்ற
    0.56
     этом
    0.54
     този
    0.53
    こういう
    0.53
     sowas
    0.53
     acest
    0.52
     هذا
    0.52
    Act Density 0.139%

    No Known Activations