INDEX
    Explanations

    left versus right

    New Auto-Interp
    Negative Logits
    еся
    -0.07
    استان
    -0.07
     yani
    -0.07
    FontSize
    -0.07
    failure
    -0.06
    Insets
    -0.06
     россий
    -0.06
    (auto
    -0.06
    oct
    -0.06
    اخت
    -0.06
    POSITIVE LOGITS
     Psych
    0.06
     ferr
    0.06
    -auth
    0.06
    atel
    0.06
     nez
    0.06
    .OR
    0.06
     separ
    0.06
    ^K
    0.06
    .ic
    0.06
    0.06
    Act Density 0.006%

    No Known Activations