INDEX
    Explanations

    The neuron lights up on content words denoting actions—i.e. verbs.

    New Auto-Interp
    Negative Logits
    する
    -0.07
     قرارد
    -0.07
    -0.07
    Metadata
    -0.06
    --,
    -0.06
    })↵↵↵
    -0.06
    .simps
    -0.06
     breeds
    -0.06
     dashes
    -0.06
     signatures
    -0.06
    POSITIVE LOGITS
     mientras
    0.07
    bett
    0.07
     
    0.07
    DU
    0.07
     paralle
    0.07
    getting
    0.07
    we
    0.07
     WF
    0.06
     issu
    0.06
    0.06
    Act Density 0.037%

    No Known Activations