INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    mit
    -0.07
    _connect
    -0.06
     nid
    -0.06
     conn
    -0.06
     cao
    -0.06
    inars
    -0.06
    Sab
    -0.06
     Deng
    -0.06
    -checkbox
    -0.06
     Auxiliary
    -0.06
    POSITIVE LOGITS
     bás
    0.07
     domain
    0.07
     Barrel
    0.07
    emed
    0.06
     altru
    0.06
     defaulted
    0.06
     دهند
    0.06
    овала
    0.06
     بیمه
    0.06
    ocked
    0.06
    Act Density 0.002%

    No Known Activations