INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ild
    -0.07
     lottery
    -0.06
    .Toast
    -0.06
     Wilde
    -0.06
    π
    -0.06
    ILD
    -0.06
     žid
    -0.06
    _old
    -0.06
     idea
    -0.06
     Owl
    -0.06
    POSITIVE LOGITS
    --
    0.13
     --
    0.12
    ----
    0.09
    0.09
    {{--
    0.08
    -Man
    0.08
    ,—
    0.08
     more
    0.08
    --↵
    0.08
    [--
    0.08
    Act Density 0.063%

    No Known Activations