INDEX
    Explanations

    Conjunctions

    New Auto-Interp
    Negative Logits
    runde
    -0.08
     Moż
    -0.08
    /User
    -0.08
    <User
    -0.08
     LJ
    -0.07
    Liz
    -0.07
     Lud
    -0.07
    Можно
    -0.07
     Publ
    -0.07
    -Le
    -0.07
    POSITIVE LOGITS
    /or
    0.09
    なく
    0.08
     pais
    0.08
     fut
    0.08
     immoral
    0.07
    /ou
    0.07
     cis
    0.07
    خوا
    0.07
     optimizer
    0.07
     extremists
    0.07
    Act Density 0.115%

    No Known Activations