INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     bald
    -0.08
    -0.08
    -0.07
    MK
    -0.07
    ofa
    -0.07
     Rai
    -0.07
     plut
    -0.07
     selet
    -0.07
    Fran
    -0.07
     Bald
    -0.07
    POSITIVE LOGITS
    0.09
    0.09
    ging
    0.08
    0.08
    ilation
    0.08
     прог
    0.08
    afone
    0.07
     abr
    0.07
    0.07
    owels
    0.07
    Act Density 0.443%

    No Known Activations