INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    _sigma
    -0.08
     Denis
    -0.07
    .operations
    -0.07
     groupe
    -0.07
    ерим
    -0.07
    iciency
    -0.07
    (kv
    -0.06
    ollower
    -0.06
     ylim
    -0.06
    ience
    -0.06
    POSITIVE LOGITS
    valuator
    0.06
    (binding
    0.06
     blo
    0.06
    0.06
    дах
    0.06
     veg
    0.06
     displaced
    0.06
    .design
    0.06
     unlocks
    0.06
    .Att
    0.06
    Act Density 0.026%

    No Known Activations