INDEX
    Explanations

    consequences and outcomes

    New Auto-Interp
    Negative Logits
     étaient
    0.47
     değildir
    0.47
     była
    0.46
     był
    0.45
    وكان
    0.44
     وكانت
    0.44
     けれど
    0.43
     était
    0.43
     été
    0.42
    except
    0.42
    POSITIVE LOGITS
     ensures
    1.53
     enables
    1.28
     gives
    1.27
     allows
    1.24
     zorgt
    1.21
     helps
    1.19
     обеспечивает
    1.19
     makes
    1.16
     prevents
    1.16
     creates
    1.13
    Act Density 0.061%

    No Known Activations