INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    文章
    -0.08
     tendencies
    -0.08
    ytale
    -0.08
     stature
    -0.08
    主体
    -0.08
     lud
    -0.07
     pastime
    -0.07
     postoje
    -0.07
    _PAY
    -0.07
     workout
    -0.07
    POSITIVE LOGITS
    การ
    0.09
    涉及
    0.09
    0.08
     الأمر
    0.08
     Pit
    0.08
    िता
    0.07
     notamment
    0.07
     Gov
    0.07
     שימוש
    0.07
    ibatkan
    0.07
    Act Density 0.024%

    No Known Activations