INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Ka
    -0.07
     bilingual
    -0.07
     brilliant
    -0.07
    iales
    -0.06
    idebar
    -0.06
     BOTTOM
    -0.06
    Ka
    -0.06
    /ch
    -0.06
     قسمت
    -0.06
    pecified
    -0.06
    POSITIVE LOGITS
     पह
    0.06
    _interaction
    0.06
     utter
    0.06
    once
    0.06
    ACLE
    0.06
    jours
    0.06
     fw
    0.06
     рас
    0.06
    dst
    0.06
    oại
    0.06
    Act Density 0.135%

    No Known Activations