INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    إسلام
    -0.08
     steal
    -0.08
     cái
    -0.08
     Img
    -0.07
    <=$
    -0.07
     дол
    -0.07
     стало
    -0.07
     vandalism
    -0.07
    _VEC
    -0.07
     Cv
    -0.07
    POSITIVE LOGITS
    обра�
    0.08
    трат
    0.08
    0.08
    EN
    0.08
    きち
    0.07
    0.07
     entfer
    0.07
    _en
    0.07
    0.07
    0.07
    Act Density 0.009%

    No Known Activations