INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     juvenile
    -0.08
    _again
    -0.07
    .Items
    -0.07
    licts
    -0.07
     bestaan
    -0.07
     Enkel
    -0.07
    ITER
    -0.07
    implement
    -0.06
    (pl
    -0.06
     Dr
    -0.06
    POSITIVE LOGITS
    0.09
     lur
    0.08
     fx
    0.08
     tertentu
    0.08
     izy
    0.08
     المال
    0.08
    asca
    0.08
     egész
    0.07
     Warren
    0.07
     ATH
    0.07
    Act Density 0.007%

    No Known Activations