INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Fit
    -0.07
    ID
    -0.07
    -0.07
     Var
    -0.07
    -0.06
    Comb
    -0.06
    -layer
    -0.06
    .FILE
    -0.06
    Messaging
    -0.06
    auth
    -0.06
    POSITIVE LOGITS
     sodium
    0.07
    .split
    0.07
     平方
    0.07
     humanoid
    0.07
     cutoff
    0.06
    HANDLE
    0.06
     childbirth
    0.06
     jean
    0.06
    yeah
    0.06
    _lower
    0.06
    Act Density 0.011%

    No Known Activations