INDEX
    Explanations

    Less than/equal to 12

    New Auto-Interp
    Negative Logits
    cdf
    -0.08
    (Activity
    -0.07
     cof
    -0.07
    CDF
    -0.07
    activation
    -0.07
     small
    -0.07
    otify
    -0.07
    orpor
    -0.07
    undle
    -0.07
     useless
    -0.07
    POSITIVE LOGITS
     Sized
    0.08
     duren
    0.08
     Slim
    0.08
    स्त
    0.08
     имен
    0.08
    mien
    0.08
     മൂന്ന്
    0.08
     তিন
    0.08
    तम
    0.08
    -क
    0.08
    Act Density 0.006%

    No Known Activations