INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     discrep
    -0.08
     Kauf
    -0.08
     COPD
    -0.08
    ดาว
    -0.08
    ต้อง
    -0.08
     Afro
    -0.08
     проход
    -0.07
     paro
    -0.07
     बस
    -0.07
     Hisp
    -0.07
    POSITIVE LOGITS
    تع
    0.08
     cn
    0.08
     jez
    0.07
     Nih
    0.07
     chassis
    0.07
    611
    0.07
    might
    0.07
     Zwischen
    0.07
     Straw
    0.07
    0.07
    Act Density 0.004%

    No Known Activations