INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     diagnoses
    -0.07
    ewidth
    -0.07
    -0.07
     нашего
    -0.07
    หาร
    -0.07
     Alzheimer
    -0.07
    :false
    -0.07
    dbname
    -0.07
     Glas
    -0.06
     afect
    -0.06
    POSITIVE LOGITS
     lesbi
    0.07
     CID
    0.07
    ży
    0.07
    第一批
    0.07
     PAY
    0.07
    0.06
    (equal
    0.06
     blatant
    0.06
    0.06
    做工
    0.06
    Act Density 0.091%

    No Known Activations