INDEX
    Explanations

    consequence or reason words

    New Auto-Interp
    Negative Logits
    ↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
    0.50
    ↵↵↵↵↵↵↵
    0.49
    ↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
    0.48
    ↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
    0.48
    ↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
    0.47
    ↵↵↵↵↵↵↵↵↵↵↵
    0.45
    ↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
    0.45
    ↵↵↵↵↵↵↵↵↵↵
    0.45
    ↵↵↵↵↵
    0.44
    ↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
    0.43
    POSITIVE LOGITS
     ดังนั้น
    0.89
     поэтому
    0.73
     joten
    0.70
     எனவே
    0.65
    所以我
    0.64
     সুতরাং
    0.63
     لذا
    0.63
     dlatego
    0.62
     所以
    0.60
     nên
    0.60
    Act Density 0.274%

    No Known Activations