INDEX
    Explanations

    math problems

    New Auto-Interp
    Negative Logits
     tofu
    -0.08
    ıkl
    -0.07
     Hoc
    -0.07
    ichter
    -0.07
     Beaver
    -0.07
    ivos
    -0.07
    lelo
    -0.07
    amd
    -0.07
     imin
    -0.07
    аман
    -0.07
    POSITIVE LOGITS
     Ds
    0.08
     dvd
    0.07
    dataset
    0.07
    Kaj
    0.07
    Sleeping
    0.07
    Esp
    0.07
     assol
    0.07
     unborn
    0.07
     []*
    0.07
    Suz
    0.07
    Act Density 0.015%

    No Known Activations