INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     indig
    -0.09
     Erw
    -0.08
     Wix
    -0.08
     Emir
    -0.07
     retaliation
    -0.07
    KR
    -0.07
     Perr
    -0.07
    volatile
    -0.07
     npe
    -0.07
    imum
    -0.07
    POSITIVE LOGITS
    вет
    0.07
    еста
    0.07
    0.07
    est
    0.07
    0.07
     ممتاز
    0.07
    uni
    0.07
    ق
    0.07
    еловек
    0.07
    ারের
    0.07
    Act Density 0.022%

    No Known Activations