INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Barg
    -0.07
     déc
    -0.07
     sections
    -0.07
    _Part
    -0.07
     Rac
    -0.07
     heart
    -0.07
    .Change
    -0.07
     remar
    -0.07
     rant
    -0.06
     section
    -0.06
    POSITIVE LOGITS
     fly
    0.10
    Fly
    0.10
     flies
    0.09
     Fly
    0.08
     flying
    0.08
    fly
    0.08
    0.07
     hungry
    0.07
     flyer
    0.07
    ف
    0.07
    Act Density 0.010%

    No Known Activations