INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     exemptions
    -0.08
     Lola
    -0.07
     Aspire
    -0.07
     למה
    -0.07
     इतनी
    -0.07
     episod
    -0.07
    เรื่อง
    -0.07
     gimm
    -0.07
     Braun
    -0.07
     vậy
    -0.07
    POSITIVE LOGITS
     halves
    0.08
    ーテ
    0.08
     اول
    0.08
    oufl
    0.07
    annon
    0.07
    פים
    0.07
    -half
    0.07
    -Sch
    0.07
     lados
    0.07
     medis
    0.07
    Act Density 0.005%

    No Known Activations