INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Here
    -0.07
     shade
    -0.07
    Expect
    -0.07
    PUTE
    -0.07
    Production
    -0.06
    VF
    -0.06
    bung
    -0.06
    <number
    -0.06
     suspicion
    -0.06
    אלימות
    -0.06
    POSITIVE LOGITS
    _Event
    0.07
    шей
    0.07
     Traffic
    0.07
     Downs
    0.07
    多く
    0.07
    .Des
    0.07
    -rate
    0.07
    _right
    0.07
     Papers
    0.07
    /chat
    0.06
    Act Density 0.004%

    No Known Activations