INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     horrific
    -0.07
     irc
    -0.07
    ضو
    -0.07
     meticulous
    -0.07
     Corm
    -0.06
     clf
    -0.06
    _BG
    -0.06
     SID
    -0.06
    fern
    -0.06
     Lia
    -0.06
    POSITIVE LOGITS
     py
    0.08
     Py
    0.07
    이는
    0.07
    μη
    0.07
    0.07
    _pairs
    0.07
    pez
    0.07
    (py
    0.07
    ар
    0.07
    кой
    0.07
    Act Density 0.029%

    No Known Activations