INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ίζεται
    -0.09
     Müdürlüğ
    -0.08
     نصب
    -0.08
     Gang
    -0.08
     स्थाप
    -0.08
     جریان
    -0.08
     સ્થાપ
    -0.08
     kurul
    -0.08
    ्यार
    -0.08
    िकारिक
    -0.08
    POSITIVE LOGITS
     obscene
    0.08
     esports
    0.08
    原创
    0.08
     LGBT
    0.08
    ンタ
    0.08
    |\
    0.08
    antis
    0.08
     suggestions
    0.08
     erotic
    0.08
     reckless
    0.08
    Act Density 0.012%

    No Known Activations