INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     parametros
    -0.07
     شار
    -0.07
    ;:;:;:;:
    -0.07
    Statement
    -0.07
    らしい
    -0.07
    注意
    -0.07
     tym
    -0.06
    	ERROR
    -0.06
     خاک
    -0.06
    (kv
    -0.06
    POSITIVE LOGITS
     diagnoses
    0.07
    manent
    0.07
    dre
    0.07
    seeing
    0.06
    dol
    0.06
    0.06
    .op
    0.06
    redit
    0.06
    OCUMENT
    0.06
     FI
    0.06
    Act Density 0.002%

    No Known Activations