INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Sath
    -0.07
    vej
    -0.07
    trip
    -0.07
     multipl
    -0.07
     patr
    -0.07
     nah
    -0.07
     KY
    -0.07
     mens
    -0.07
    owment
    -0.07
     Maver
    -0.07
    POSITIVE LOGITS
    0.08
     обеспечить
    0.08
     agree
    0.08
     여기
    0.08
    ист
    0.07
    0.07
     Politics
    0.07
     хам
    0.07
    это
    0.07
    0.07
    Act Density 0.014%

    No Known Activations