INDEX
    Explanations

    possessive pronouns and questions

    New Auto-Interp
    Negative Logits
    让自己
    0.52
     ด่า
    0.51
     자신이
    0.50
     પોતાની
    0.49
     அளவிற்கு
    0.48
     playfully
    0.48
    ตน
    0.46
    恐惧
    0.45
     வெறு
    0.44
     தனது
    0.43
    POSITIVE LOGITS
     our
    1.01
     আমাদের
    0.98
     ہمارے
    0.89
     your
    0.87
    আমাদের
    0.85
     нашей
    0.84
     nossa
    0.81
     naszej
    0.80
    我们的
    0.78
     हमारे
    0.77
    Act Density 0.001%

    No Known Activations