INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Anmeldung
    -0.07
    נט
    -0.07
     gemeinsame
    -0.07
     balans
    -0.07
     Rub
    -0.07
     το
    -0.07
     automation
    -0.07
     literacy
    -0.07
     rej
    -0.07
    -0.07
    POSITIVE LOGITS
     #%
    0.09
     baina
    0.08
     silently
    0.08
     horses
    0.08
    ajj
    0.08
    ahren
    0.08
     Khal
    0.08
     agarr
    0.08
     conserving
    0.08
    ipada
    0.08
    Act Density 0.002%

    No Known Activations