INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Suicide
    -0.07
     lance
    -0.07
     crises
    -0.07
     multiplied
    -0.07
    ưu
    -0.07
     качестве
    -0.07
     indice
    -0.07
    orus
    -0.07
     raped
    -0.07
    vect
    -0.07
    POSITIVE LOGITS
    DB
    0.09
     Patel
    0.07
    xbb
    0.07
    Mb
    0.07
    db
    0.07
     bk
    0.07
    кій
    0.07
     DB
    0.06
     Б
    0.06
    ب
    0.06
    Act Density 0.014%

    No Known Activations