INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     فيه
    -0.07
     bakımından
    -0.06
    /////////////////////////////////////////////////////////////////////////////↵
    -0.06
     алког
    -0.06
    -0.06
    -0.06
    pathname
    -0.06
    gettext
    -0.06
     màn
    -0.06
     yazılı
    -0.06
    POSITIVE LOGITS
     Girls
    0.08
    acente
    0.07
     conclude
    0.07
     rf
    0.07
    girls
    0.06
    .task
    0.06
    asley
    0.06
     Hil
    0.06
     IUser
    0.06
     हत
    0.06
    Act Density 0.007%

    No Known Activations