INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    _Up
    -0.07
    _SWITCH
    -0.07
     Guar
    -0.07
     scramble
    -0.07
    _cleanup
    -0.07
    andin
    -0.07
    pas
    -0.07
     dependency
    -0.06
     madness
    -0.06
    辛辣
    -0.06
    POSITIVE LOGITS
    .toggle
    0.07
     astronom
    0.07
     числ
    0.07
     bos
    0.06
     tek
    0.06
    先生
    0.06
     blocks
    0.06
    务必
    0.06
    .prepend
    0.06
    0.06
    Act Density 0.002%

    No Known Activations