INDEX
    Explanations

    math/logic problems

    New Auto-Interp
    Negative Logits
    ösen
    -0.07
    采取
    -0.07
     ost
    -0.07
    243
    -0.07
    Que
    -0.07
     внимание
    -0.07
     atent
    -0.07
     ze
    -0.07
    -0.07
    ern
    -0.07
    POSITIVE LOGITS
     dispar
    0.09
     pouvoirs
    0.08
    instr
    0.08
     König
    0.08
    ICP
    0.08
    Cf
    0.08
    wu
    0.08
     технологий
    0.08
    Dv
    0.07
     Fundamental
    0.07
    Act Density 0.093%

    No Known Activations