INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    cy
    -0.08
     fined
    -0.07
     couleur
    -0.06
     Relations
    -0.06
     сам
    -0.06
    wash
    -0.06
     absol
    -0.06
     Channel
    -0.06
    Exc
    -0.06
     birbir
    -0.06
    POSITIVE LOGITS
    .Footer
    0.07
    __));↵
    0.07
    >()
    0.07
    \Plugin
    0.06
    .jdesktop
    0.06
    '));
    0.06
    *******/↵
    0.06
    .relu
    0.06
    mour
    0.06
     *);↵
    0.06
    Act Density 0.003%

    No Known Activations