INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
    -0.08
    	  
    -0.07
     stereotypes
    -0.07
    .preview
    -0.07
     Jane
    -0.07
     لم
    -0.07
     Kamer
    -0.07
     Seattle
    -0.07
    -0.07
    POSITIVE LOGITS
     Bon
    0.08
     Ende
    0.08
     definit
    0.08
    Bon
    0.08
     Mor
    0.07
     mor
    0.07
     Ish
    0.07
    Nothing
    0.07
    324
    0.07
    ()}
    0.07
    Act Density 0.052%

    No Known Activations