INDEX
    Explanations

    say "negative event"

    New Auto-Interp
    Negative Logits
     lever
    -0.08
    rots
    -0.07
     audiences
    -0.07
    -0.07
    [data
    -0.07
    (repository
    -0.07
    	if
    -0.07
     een
    -0.07
    pta
    -0.06
    Wheel
    -0.06
    POSITIVE LOGITS
     '-',
    0.06
    .balance
    0.06
     Merkel
    0.06
     nuestros
    0.06
     satur
    0.06
    dtype
    0.06
     malloc
    0.05
    ylland
    0.05
     Franken
    0.05
     Constraint
    0.05
    Act Density 0.094%

    No Known Activations