INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Erm
    -0.09
     Mere
    -0.08
     Wick
    -0.08
     Dress
    -0.07
    -backed
    -0.07
     Feria
    -0.07
     вина
    -0.07
     Authentic
    -0.07
    ټو
    -0.07
    登陆
    -0.07
    POSITIVE LOGITS
    exe
    0.08
     شدن
    0.08
    'avant
    0.08
    etc
    0.07
     verwijderen
    0.07
    aska
    0.07
    گذاری
    0.07
    0.07
    kách
    0.07
    ára
    0.07
    Act Density 0.002%

    No Known Activations