INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    _output
    -0.08
     обще
    -0.07
     nowhere
    -0.07
     interpreter
    -0.07
     Interpreter
    -0.07
     verstehen
    -0.07
     angegeben
    -0.07
     osh
    -0.07
    nes
    -0.07
     compreender
    -0.07
    POSITIVE LOGITS
     newsletters
    0.15
    邮件
    0.13
    发送
    0.13
     भेज
    0.12
    Newsletter
    0.12
     Emails
    0.11
    newsletter
    0.11
     emails
    0.11
     personalized
    0.11
     enviada
    0.11
    Act Density 0.025%

    No Known Activations