INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ahat
    -0.07
    LOSS
    -0.07
     frost
    -0.07
     adhesive
    -0.06
     Mits
    -0.06
     hijos
    -0.06
     Boston
    -0.06
    867
    -0.06
     plethora
    -0.06
    www
    -0.06
    POSITIVE LOGITS
    .Initialize
    0.07
    .prefix
    0.06
     Росії
    0.06
     taky
    0.06
    _MR
    0.06
     prer
    0.06
    .jp
    0.06
    _NT
    0.06
    .reject
    0.06
     Merkez
    0.06
    Act Density 0.002%

    No Known Activations