INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    utzt
    -0.08
    _va
    -0.07
    🥨
    -0.07
    -0.07
    -0.07
     brides
    -0.07
    “As
    -0.07
    פג
    -0.07
    -0.07
     personal
    -0.07
    POSITIVE LOGITS
     Basically
    0.07
    :)↵
    0.07
    :],
    0.07
    OfWork
    0.07
     hh
    0.07
     уси
    0.07
     Skinner
    0.07
     повышен
    0.07
     RATE
    0.06
     fChain
    0.06
    Act Density 0.011%

    No Known Activations