INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Fires
    -0.08
     seals
    -0.07
     famine
    -0.07
     Cortex
    -0.07
    iesel
    -0.07
     Mast
    -0.07
    ialis
    -0.07
     прож
    -0.06
     Monster
    -0.06
     Stall
    -0.06
    POSITIVE LOGITS
    0.07
    0.07
    (*
    0.07
    دو
    0.07
    !');↵
    0.07
    演技
    0.07
    "}↵↵
    0.07
    0.07
    𝕋
    0.06
     orthogonal
    0.06
    Act Density 0.025%

    No Known Activations