INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     prisons
    -0.09
     messing
    -0.07
     McKenzie
    -0.07
     provincia
    -0.07
     прек
    -0.07
    urope
    -0.07
     brib
    -0.07
    مسئول
    -0.07
     Equip
    -0.07
     electric
    -0.07
    POSITIVE LOGITS
    产品研发
    0.08
    -beta
    0.07
    单品
    0.07
     captures
    0.07
     Know
    0.07
    ATAR
    0.07
     reveals
    0.07
    歷史
    0.07
    _kelas
    0.07
    _live
    0.06
    Act Density 0.002%

    No Known Activations