INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     anbef
    -0.08
     reflex
    -0.08
    -middle
    -0.08
     вдох
    -0.07
    -span
    -0.07
    -cap
    -0.07
     bukan
    -0.07
    -0.07
     monop
    -0.07
    -serving
    -0.07
    POSITIVE LOGITS
     długo
    0.08
    ني
    0.08
     faço
    0.08
     grootte
    0.07
    icky
    0.07
    Size
    0.07
    нь
    0.07
    ancin
    0.07
    íní
    0.07
     hier
    0.07
    Act Density 0.031%

    No Known Activations