INDEX
    Explanations

    pronouns and their actions

    New Auto-Interp
    Negative Logits
    CH
    0.16
     אשר
    0.15
    -
    0.15
    {
    0.15
    H
    0.14
        
    0.14
    কু
    0.14
    provide
    0.14
    RO
    0.13
    W
    0.13
    POSITIVE LOGITS
    zelf
    0.21
     in
    0.18
     در
    0.15
    ſelf
    0.15
     جميعا
    0.15
     styl
    0.14
    sef
    0.14
     personally
    0.14
     போலவே
    0.14
    0.14
    Act Density 0.126%

    No Known Activations