INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     также
    -0.07
     onlara
    -0.07
    보내기
    -0.07
    meden
    -0.07
    ="\
    -0.07
     diseñador
    -0.07
     Тур
    -0.06
    irler
    -0.06
    ystatechange
    -0.06
     vtx
    -0.06
    POSITIVE LOGITS
    шь
    0.07
    )/
    0.07
    _IC
    0.06
     pi
    0.06
     Ngb
    0.06
     volunteering
    0.06
     controversial
    0.06
    ешь
    0.06
    _FETCH
    0.06
    +/
    0.06
    Act Density 0.072%

    No Known Activations