INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    shine
    -0.09
     Arr
    -0.08
     sèche
    -0.08
    GG
    -0.07
     arr
    -0.07
     kuwa
    -0.07
    limited
    -0.07
     hacerlo
    -0.07
     mixed
    -0.07
    arr
    -0.07
    POSITIVE LOGITS
    авед
    0.09
     ideas
    0.09
     mensagens
    0.09
     publicity
    0.09
     mensajes
    0.09
     condol
    0.09
     сообщений
    0.09
     идеи
    0.08
     의견
    0.08
     conces
    0.08
    Act Density 0.009%

    No Known Activations