INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ិនបើ
    0.64
    把我
    0.62
    对我
    0.60
    私の
    0.52
     बताऊंगा
    0.50
    ayım
    0.48
     jums
    0.46
     તમને
    0.45
     jestem
    0.45
    あなた
    0.45
    POSITIVE LOGITS
     we
    3.89
     мы
    3.88
     আমরা
    3.67
     chúng
    3.50
    我们
    3.42
    我們
    3.39
     हम
    3.36
     우리는
    3.33
    เรา
    3.11
     我们
    3.05
    Act Density 0.437%

    No Known Activations