INDEX
    Explanations

    contrasts and exceptions

    New Auto-Interp
    Negative Logits
     புது
    0.38
    Итак
    0.37
     Ribe
    0.37
     zwar
    0.36
    ában
    0.35
    ப்படுத்தும்
    0.35
     Wirk
    0.35
    SPIR
    0.35
     memang
    0.35
     aurez
    0.35
    POSITIVE LOGITS
    なのに
    1.18
     yet
    0.94
     Yet
    0.88
    Yet
    0.86
     pourtant
    0.84
     ignored
    0.82
     অথচ
    0.81
    yet
    0.79
     그런데
    0.74
    ignored
    0.74
    Act Density 0.094%

    No Known Activations