INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    自体
    0.32
     you
    0.31
     amerik
    0.31
     imong
    0.30
    0.30
     vaše
    0.30
     allgemein
    0.30
     ਤੁਹਾ
    0.30
     olok
    0.30
     আপনি
    0.30
    POSITIVE LOGITS
     own
    0.39
     sendiri
    0.38
     собственные
    0.37
     собственных
    0.37
    เอง
    0.34
     próprios
    0.33
    ständ
    0.33
     propia
    0.33
     влас
    0.31
     próprias
    0.31
    Act Density 0.186%

    No Known Activations