INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     असून
    0.36
    ませんが
    0.32
    اہد
    0.31
     pembelajaran
    0.30
     وګ
    0.30
     mutta
    0.30
    していますが
    0.30
     없고
    0.29
     melibatkan
    0.29
     graag
    0.29
    POSITIVE LOGITS
    0.49
    ).
    0.39
    0.39
    .*
    0.37
    0.37
     Thus
    0.35
    thus
    0.35
    从而
    0.32
    Thus
    0.31
    Ainsi
    0.31
    Act Density 0.475%

    No Known Activations