INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    wc
    -0.08
    ','.
    -0.08
    בנ
    -0.07
    、公
    -0.07
    Dots
    -0.07
     buit
    -0.07
     నే
    -0.07
    agala
    -0.07
    296
    -0.07
    -sub
    -0.07
    POSITIVE LOGITS
     rinc
    0.08
     Hef
    0.08
    จะ
    0.08
    0.07
     Pierre
    0.07
     pah
    0.07
    0.07
     Chen
    0.07
     Richards
    0.07
     hef
    0.07
    Act Density 0.001%

    No Known Activations