INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     swapping
    -0.07
    -0.07
     mouseX
    -0.07
    )paren
    -0.07
    magnitude
    -0.06
    /component
    -0.06
     pushing
    -0.06
     deal
    -0.06
    ifter
    -0.06
    Stack
    -0.06
    POSITIVE LOGITS
    	↵	↵	↵
    0.08
    .hs
    0.06
    שמח
    0.06
     immigrant
    0.06
    三国
    0.06
     getSize
    0.06
    ologna
    0.06
     Oscar
    0.06
     Gibraltar
    0.06
    最强
    0.06
    Act Density 0.005%

    No Known Activations