INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Init
    -0.08
     Corm
    -0.07
     zoo
    -0.07
     args
    -0.07
     Oy
    -0.07
     jq
    -0.06
    28
    -0.06
     eclips
    -0.06
     número
    -0.06
    фра
    -0.06
    POSITIVE LOGITS
     Des
    0.09
    Des
    0.09
     des
    0.07
    DES
    0.07
    rosse
    0.06
    lassen
    0.06
    าถ
    0.06
    .Generation
    0.06
     MUCH
    0.06
    profession
    0.06
    Act Density 0.018%

    No Known Activations