INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    وجه
    -0.09
    ,U
    -0.07
     alternatives
    -0.07
     objects
    -0.07
    _PHYS
    -0.07
    isions
    -0.07
    -0.07
    所谓的
    -0.06
    Donald
    -0.06
     muscles
    -0.06
    POSITIVE LOGITS
     gala
    0.08
    (crate
    0.08
    0.07
    הצלחת
    0.07
    Pragma
    0.07
    0.07
    /pm
    0.07
    0.07
    0.07
    _RTC
    0.07
    Act Density 0.010%

    No Known Activations