INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    所の
    0.45
     우리가
    0.42
     تكونوا
    0.42
     meine
    0.41
     நாம்
    0.41
    私が
    0.41
     తాను
    0.40
     কয়েকজন
    0.40
    자들이
    0.39
     своим
    0.39
    POSITIVE LOGITS
    0.62
     عليك
    0.51
     عليه
    0.48
     ಅವ
    0.47
    你了
    0.44
     उनसे
    0.44
     ним
    0.43
     إليه
    0.42
     देम
    0.42
     منك
    0.41
    Act Density 0.023%

    No Known Activations