INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     shar
    -0.07
    bon
    -0.07
    أة
    -0.06
     yuan
    -0.06
    positor
    -0.06
     refusal
    -0.06
    fir
    -0.06
    translator
    -0.06
    AUT
    -0.06
    Ros
    -0.06
    POSITIVE LOGITS
     MMI
    0.07
     نظام
    0.07
    bro
    0.06
     cresc
    0.06
     з
    0.06
     Під
    0.06
     Poster
    0.06
    -sem
    0.06
     než
    0.06
     AMS
    0.06
    Act Density 0.001%

    No Known Activations