INDEX
    Explanations

    dissipation

    New Auto-Interp
    Negative Logits
     kiểm
    -0.07
    ndern
    -0.06
     keyboard
    -0.06
    stud
    -0.06
    бина
    -0.06
    ------------------------------
    -0.06
     dönem
    -0.06
    endum
    -0.06
    (net
    -0.06
     nuestro
    -0.06
    POSITIVE LOGITS
     Bans
    0.07
     gdzie
    0.07
     plag
    0.06
    rawtypes
    0.06
     prohibit
    0.06
    0.06
     betting
    0.06
    这种
    0.06
    0.06
     第一
    0.06
    Act Density 0.002%

    No Known Activations