INDEX
    Explanations

    groups and their likely actions

    New Auto-Interp
    Negative Logits
    あなたが
    0.40
     your
    0.35
    your
    0.35
    给你
    0.34
    あなたの
    0.33
     youre
    0.32
     вашего
    0.32
     നിങ്ങളുടെ
    0.31
     sizin
    0.31
     ваши
    0.31
    POSITIVE LOGITS
     should
    0.62
     باید
    0.59
     Should
    0.53
     должны
    0.52
     harus
    0.52
     powin
    0.52
     pueden
    0.51
     должна
    0.51
    สามารถ
    0.50
     sollten
    0.49
    Act Density 0.165%

    No Known Activations