INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    _section
    -0.07
    ław
    -0.07
     시험
    -0.06
     νεφοκάλυψης
    -0.06
    ihar
    -0.06
     جمهور
    -0.06
     isEnabled
    -0.06
     constrain
    -0.06
    /build
    -0.06
     корот
    -0.06
    POSITIVE LOGITS
     abusive
    0.07
    дяки
    0.07
     MBA
    0.06
    aversal
    0.06
     UB
    0.06
     sliced
    0.06
    Input
    0.06
     swims
    0.06
    categorias
    0.06
    DNA
    0.06
    Act Density 0.029%

    No Known Activations