INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     doctor
    -0.07
    LL
    -0.06
    indi
    -0.06
     ambassador
    -0.06
    RIPT
    -0.06
    duğunu
    -0.06
     SUS
    -0.06
    mine
    -0.06
     підпис
    -0.06
     '@
    -0.06
    POSITIVE LOGITS
     contrib
    0.07
    [:,:,
    0.07
    colon
    0.06
     Dış
    0.06
    0.06
    /version
    0.06
    の上
    0.06
     بي
    0.06
    getNext
    0.06
    0.06
    Act Density 0.051%

    No Known Activations