INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Walker
    -0.07
     <*
    -0.07
    دری
    -0.07
    Url
    -0.06
     proportion
    -0.06
     ActiveForm
    -0.06
    スポ
    -0.06
     сайті
    -0.06
    انگ
    -0.06
    ificador
    -0.06
    POSITIVE LOGITS
     cancel
    0.08
    рование
    0.06
     trash
    0.06
    0.06
    -chat
    0.06
    .Duration
    0.06
     push
    0.06
    iness
    0.06
     adopts
    0.06
     Worker
    0.06
    Act Density 0.003%

    No Known Activations