INDEX
    Explanations

    include/require

    New Auto-Interp
    Negative Logits
    uang
    -0.07
     Rou
    -0.07
    -DD
    -0.07
    AQ
    -0.07
    город
    -0.07
    ropa
    -0.06
     Lyons
    -0.06
    的道理
    -0.06
     thuật
    -0.06
    -0.06
    POSITIVE LOGITS
    adx
    0.07
    0.07
     admin
    0.07
    thead
    0.06
    本市
    0.06
     breastfeeding
    0.06
    孩子的
    0.06
    0.06
    קדמי
    0.06
     SCREEN
    0.06
    Act Density 0.002%

    No Known Activations