INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Drv
    -0.07
     watched
    -0.07
    تباد
    -0.07
    하겠다
    -0.07
    -0.07
    Residents
    -0.06
    -0.06
    已久
    -0.06
    Psy
    -0.06
     captcha
    -0.06
    POSITIVE LOGITS
    ние
    0.07
    -government
    0.07
    _neighbors
    0.07
    海淀
    0.07
    학생
    0.07
    0.07
    起义
    0.07
    行政审批
    0.07
    _event
    0.06
    来历
    0.06
    Act Density 0.084%

    No Known Activations