INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    way
    -0.08
    Driven
    -0.08
    Clamp
    -0.08
    sit
    -0.07
     fostering
    -0.07
    Parser
    -0.07
    dut
    -0.07
     unavoidable
    -0.07
    repair
    -0.07
     caut
    -0.07
    POSITIVE LOGITS
    0.10
    0.09
     autos
    0.08
    0.08
    0.07
    0.07
     neut
    0.07
    ification
    0.07
     congel
    0.07
    /free
    0.07
    Act Density 0.007%

    No Known Activations