INDEX
    Explanations

    baking soda

    New Auto-Interp
    Negative Logits
     Assign
    -0.07
    Вы
    -0.07
    лаг
    -0.07
     وز
    -0.07
     physic
    -0.07
    (I
    -0.07
    Vous
    -0.07
     чаще
    -0.07
     Вы
    -0.07
     placed
    -0.06
    POSITIVE LOGITS
    чист
    0.08
    0.07
    יהוד
    0.07
    تحول
    0.07
    ledon
    0.07
    ręcz
    0.07
    0.07
    unbind
    0.07
    emd
    0.06
     termin
    0.06
    Act Density 0.002%

    No Known Activations