INDEX
    Explanations

    helping or allowing people/users

    New Auto-Interp
    Negative Logits
    這個
    0.47
    ется
    0.46
     випадку
    0.44
     пожалуйста
    0.43
    ি
    0.42
    方法は
    0.42
     кажется
    0.42
    謝謝
    0.42
    谢谢
    0.42
    П
    0.41
    POSITIVE LOGITS
    人们
    0.75
     policymakers
    0.72
     utilisateurs
    0.70
     users
    0.68
     netizens
    0.67
     사람들이
    0.66
    ユーザー
    0.66
     människor
    0.64
    人々
    0.63
     ప్రజ
    0.63
    Act Density 0.017%

    No Known Activations