INDEX
    Explanations

    consequence and relation

    New Auto-Interp
    Negative Logits
    但是在
    0.49
     pero
    0.48
     다음과
    0.45
     maar
    0.44
     följande
    0.43
     следующие
    0.43
     følgende
    0.43
     but
    0.43
    但是
    0.42
    았습니다
    0.42
    POSITIVE LOGITS
     waardoor
    1.54
     což
    1.53
    从而
    1.52
     thereby
    1.47
     sehingga
    1.47
     vilket
    1.38
    which
    1.36
     وبالتالي
    1.30
     ซึ่ง
    1.30
     which
    1.28
    Act Density 0.092%

    No Known Activations