INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ...\n\n\n\n
    -0.09
     
    -0.09
    !
    -0.08
    m
    -0.07
    for
    -0.07
    zb
    -0.07
    qu
    -0.06
    .scalablytyped
    -0.06
     Direct
    -0.06
    ystick
    -0.06
    POSITIVE LOGITS
    ¶Į
    0.13
    ******č\n
    0.13
    ¦æĥħ
    0.12
    ÂĢÂĢ
    0.11
    .Formatter
    0.11
    įng
    0.10
     -*-č\n
    0.10
    ¿ÃĤ
    0.10
    <|begin_of_text|>
    0.09
    ÂĤÃĮ
    0.09
    Act Density 0.696%

    No Known Activations