INDEX
    Explanations

    personal pronouns

    New Auto-Interp
    Negative Logits
    _SHOW
    -0.08
     Возмож
    -0.07
    valg
    -0.07
     pse
    -0.07
     velho
    -0.07
    umy
    -0.07
     Cyan
    -0.07
    ichern
    -0.07
     bro
    -0.07
     médicos
    -0.07
    POSITIVE LOGITS
    bou
    0.08
     gentil
    0.08
    tent
    0.08
    Flip
    0.07
     knife
    0.07
     fro
    0.07
     ours
    0.07
     ആശ
    0.07
     करत
    0.07
    .dtype
    0.07
    Act Density 0.041%

    No Known Activations