INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    gu
    -0.08
     Gui
    -0.08
     greeted
    -0.07
     hast
    -0.07
    -0.07
     entraîner
    -0.07
     verfolgen
    -0.07
    यू
    -0.07
    Beginning
    -0.07
    ٌ
    -0.07
    POSITIVE LOGITS
     union
    0.08
     parity
    0.07
    unny
    0.07
    183
    0.07
     &=
    0.07
    0.07
    union
    0.07
    0.07
    0.07
    ral
    0.07
    Act Density 0.020%

    No Known Activations