INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     kill
    -0.08
     chicks
    -0.08
     submissions
    -0.07
     kah
    -0.07
     geh
    -0.07
     lions
    -0.07
     kro
    -0.07
     nomin
    -0.07
     Glück
    -0.07
     Crowd
    -0.07
    POSITIVE LOGITS
     promptly
    0.08
    етель
    0.08
     подробно
    0.08
    ונו
    0.08
    详细
    0.08
    @s
    0.08
    根据
    0.08
     জান
    0.07
    awb
    0.07
     correspondientes
    0.07
    Act Density 0.084%

    No Known Activations