INDEX
    Explanations

    improvement and management

    New Auto-Interp
    Negative Logits
     לך
    -0.08
    leken
    -0.08
     lun
    -0.08
     तुम्ह
    -0.07
     Rid
    -0.07
     بودن
    -0.07
     člov
    -0.07
    ahn
    -0.07
    уль
    -0.07
    opse
    -0.07
    POSITIVE LOGITS
     తమ
    0.15
     ತಮ್ಮ
    0.15
     themselves
    0.11
     নিজেদের
    0.11
    ,他们
    0.10
     իրենց
    0.10
     swoje
    0.10
     അവരുടെ
    0.10
    selves
    0.10
     svoje
    0.10
    Act Density 0.431%

    No Known Activations