INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     своих
    0.61
     తమ
    0.60
     തന്റെ
    0.58
     своему
    0.58
     ತಮ್ಮ
    0.54
    了自己的
    0.53
     आपली
    0.52
     swoich
    0.52
     своїх
    0.50
     தங்கள்
    0.50
    POSITIVE LOGITS
    1.50
    1.36
    1.27
     அவர்
    1.27
     он
    1.26
     він
    1.23
     him
    1.22
    1.19
    他就
    1.19
    เขา
    1.17
    Act Density 0.036%

    No Known Activations