INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    pr
    -0.07
    енсив
    -0.07
     lose
    -0.07
     wiped
    -0.07
    NGTH
    -0.07
     clinics
    -0.06
     replies
    -0.06
    anın
    -0.06
    оступ
    -0.06
    ,但是
    -0.06
    POSITIVE LOGITS
     decidedly
    0.25
     distinctly
    0.20
     downright
    0.10
     eher
    0.09
     Sadly
    0.09
     совершенно
    0.08
     sadly
    0.08
    Sadly
    0.08
     Duterte
    0.07
    页面
    0.06
    Act Density 0.001%

    No Known Activations