INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    سفر
    -0.07
     Sponsored
    -0.07
    -0.07
    -0.07
    -0.06
    -0.06
    -Mobile
    -0.06
    一条
    -0.06
    elog
    -0.06
    _cover
    -0.06
    POSITIVE LOGITS
     değildir
    0.07
     reflects
    0.07
    zac
    0.07
     Reb
    0.07
     Indonesian
    0.07
    达到了
    0.07
    _minus
    0.07
     hypoc
    0.06
    负面影响
    0.06
    bah
    0.06
    Act Density 0.002%

    No Known Activations