INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     adequate
    -0.09
     Freud
    -0.08
     života
    -0.08
    \Message
    -0.08
     particulière
    -0.08
    ола
    -0.08
     volet
    -0.08
     tead
    -0.08
    ינים
    -0.08
     האחר
    -0.08
    POSITIVE LOGITS
    Kot
    0.07
    to
    0.07
    ylon
    0.07
     Tät
    0.07
     Kot
    0.07
    شو
    0.07
     ator
    0.07
    .make
    0.07
    ONY
    0.07
    Order
    0.07
    Act Density 0.001%

    No Known Activations