INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     extensive
    -0.07
     Hits
    -0.07
    퓨터
    -0.07
     draws
    -0.07
    Rem
    -0.07
     angry
    -0.07
     Use
    -0.06
    Mix
    -0.06
     mamma
    -0.06
     incid
    -0.06
    POSITIVE LOGITS
     xamarin
    0.06
    0.06
     discourage
    0.06
    _sound
    0.06
    utzer
    0.06
     Harden
    0.06
    amaño
    0.06
     الغ
    0.06
    igkeit
    0.06
     جنسی
    0.06
    Act Density 0.023%

    No Known Activations