INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     القرآن
    -0.07
    Craig
    -0.07
    jvu
    -0.07
    /************************
    -0.06
     default
    -0.06
    fail
    -0.06
     weighing
    -0.06
    itelist
    -0.06
    _chi
    -0.06
    unga
    -0.06
    POSITIVE LOGITS
    ेज
    0.07
    noxious
    0.07
    Model
    0.07
     Tex
    0.07
     rugs
    0.07
    'C
    0.06
     В
    0.06
    _OPERATION
    0.06
     Soros
    0.06
     вокруг
    0.06
    Act Density 0.008%

    No Known Activations