INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     METH
    -0.08
     נת
    -0.08
    كشف
    -0.07
    _Save
    -0.07
     בשנת
    -0.07
     CRUD
    -0.07
     sacrificed
    -0.07
    试探
    -0.07
    مساب
    -0.06
    美誉
    -0.06
    POSITIVE LOGITS
    placements
    0.08
    )r
    0.08
    ريس
    0.07
     expose
    0.07
    =[↵
    0.07
     hx
    0.07
     receivers
    0.07
    )>↵
    0.07
    acas
    0.07
    ]+
    0.07
    Act Density 0.011%

    No Known Activations