INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    acios
    -0.07
     снова
    -0.07
    Rules
    -0.06
     ong
    -0.06
    fclose
    -0.06
     zpráva
    -0.06
    -0.06
    制度
    -0.06
     Distrib
    -0.06
    Featured
    -0.06
    POSITIVE LOGITS
     torture
    0.07
     cheat
    0.07
    0.07
     şiddet
    0.07
     oli
    0.06
    0.06
     XSS
    0.06
    _MOD
    0.06
    かる
    0.06
    assa
    0.06
    Act Density 0.052%

    No Known Activations