INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ített
    -0.09
    ecido
    -0.08
     يتم
    -0.08
     çıkan
    -0.08
    _graph
    -0.08
    ied
    -0.08
     يعد
    -0.07
     fabricated
    -0.07
    ovaný
    -0.07
    သော
    -0.07
    POSITIVE LOGITS
    ны
    0.18
    альны
    0.17
    чны
    0.14
    érieures
    0.13
    ированы
    0.13
    ныя
    0.13
     yihiin
    0.11
    īgas
    0.11
    лены
    0.11
     ones
    0.11
    Act Density 0.016%

    No Known Activations