INDEX
    Explanations

    approximate/vague language

    New Auto-Interp
    Negative Logits
     sper
    -0.07
     речов
    -0.07
    -0.07
    _crop
    -0.07
    _NPC
    -0.06
     Certif
    -0.06
     خدمت
    -0.06
    _MASK
    -0.06
    Z
    -0.06
    ‌کننده
    -0.06
    POSITIVE LOGITS
    vard
    0.06
     tersebut
    0.06
     poner
    0.06
    Chelsea
    0.06
     Uk
    0.06
    estring
    0.05
     feasible
    0.05
    <Class
    0.05
    FileType
    0.05
     outsider
    0.05
    Act Density 0.273%

    No Known Activations