INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    我们在
    0.49
    我們可以
    0.44
     ನನ್ನ
    0.43
    你可以
    0.43
     মানুষের
    0.43
     сиз
    0.42
    针对
    0.42
    您可以
    0.42
    0.42
    ที่คุณ
    0.41
    POSITIVE LOGITS
    来说
    0.49
    來說
    0.46
    而言
    0.46
     constituye
    0.46
     será
    0.45
     felicidade
    0.44
     oznacza
    0.44
    来讲
    0.43
     semble
    0.42
     conforto
    0.42
    Act Density 0.035%

    No Known Activations