INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Frog
    -0.07
     már
    -0.07
    -0.06
     deposited
    -0.06
    inidad
    -0.06
     Ελλην
    -0.06
    -0.06
    اتی
    -0.06
    _ur
    -0.06
     educating
    -0.06
    POSITIVE LOGITS
    olders
    0.08
    Parameter
    0.07
     npc
    0.07
    unfold
    0.07
     organize
    0.06
    Als
    0.06
    ulative
    0.06
    _nc
    0.06
     mange
    0.06
     جام
    0.06
    Act Density 0.013%

    No Known Activations