INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Nm
    -0.06
     shower
    -0.06
    °C
    -0.06
    ufen
    -0.06
     ifade
    -0.06
    Ideal
    -0.06
     chiefs
    -0.06
    ěr
    -0.06
     enclosure
    -0.06
     vět
    -0.06
    POSITIVE LOGITS
    821
    0.07
    0.06
    .Layer
    0.06
    /legal
    0.06
    )`
    0.06
     ±
    0.06
    izzly
    0.06
     письмен
    0.06
    \Bundle
    0.06
    เวล
    0.06
    Act Density 0.017%

    No Known Activations