INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     brag
    -0.10
    -0.08
     adobe
    -0.08
    .deploy
    -0.07
     chatter
    -0.07
     Blanche
    -0.07
     chakra
    -0.07
     Leopold
    -0.07
    .handlers
    -0.07
     Whisper
    -0.07
    POSITIVE LOGITS
    itm
    0.09
     sty
    0.08
     ביצ
    0.07
     Tiger
    0.07
     Davis
    0.07
     verge
    0.07
    0.07
     أخذ
    0.07
     ane
    0.07
     ot
    0.07
    Act Density 0.002%

    No Known Activations