INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     hommes
    -0.09
     Dent
    -0.09
     الشيخ
    -0.09
     bra
    -0.08
     braid
    -0.08
     الرجال
    -0.08
    -0.08
     نيو
    -0.08
    М
    -0.07
     Hirsch
    -0.07
    POSITIVE LOGITS
    )):↵
    0.08
    )):
    0.08
     sowie
    0.08
    	               
    0.07
    -ins
    0.07
     oraz
    0.07
    以及
    0.07
     करनी
    0.07
    _ST
    0.07
    "In
    0.07
    Act Density 0.003%

    No Known Activations