INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     politics
    -0.07
    EDGE
    -0.06
    conf
    -0.06
     Sabbath
    -0.06
    .detach
    -0.06
    .list
    -0.06
     lo
    -0.06
    -0.06
     MB
    -0.06
     треть
    -0.06
    POSITIVE LOGITS
     ortadan
    0.07
     مواط
    0.07
    .Visible
    0.07
     hızla
    0.07
     ре
    0.07
    istrar
    0.06
     '..
    0.06
     hotelu
    0.06
    lang
    0.06
     çerçev
    0.06
    Act Density 0.017%

    No Known Activations