INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    改变
    -0.07
    起诉
    -0.06
    比较
    -0.06
     admired
    -0.06
    这是一个
    -0.06
    警惕
    -0.06
    バン
    -0.06
    -0.06
    山谷
    -0.06
    生死
    -0.06
    POSITIVE LOGITS
     saga
    0.08
    0.07
     bogus
    0.07
     אפשר
    0.07
    gateway
    0.07
    到期
    0.07
    inbox
    0.07
    אמר
    0.07
    	REG
    0.07
     Decl
    0.06
    Act Density 0.015%

    No Known Activations