INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     sponsor
    -0.08
     prep
    -0.08
    (std
    -0.08
     memes
    -0.07
     زیادی
    -0.07
     u
    -0.07
    (_,
    -0.07
     moda
    -0.07
     BES
    -0.07
     personalidad
    -0.07
    POSITIVE LOGITS
    arle
    0.07
    civil
    0.07
    0.07
    arkan
    0.07
    教師
    0.07
     haber
    0.07
    ngulo
    0.07
    0.07
     எழ
    0.07
    律师
    0.07
    Act Density 0.054%

    No Known Activations