INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     monoch
    -0.08
    یت
    -0.08
    gebied
    -0.08
    -0.08
     academia
    -0.08
     Wen
    -0.07
    ுவர்
    -0.07
    Jes
    -0.07
     Wonders
    -0.07
     Bur
    -0.07
    POSITIVE LOGITS
    ovs
    0.08
     entrant
    0.07
    upid
    0.07
     slip
    0.07
     objections
    0.07
     priori
    0.07
     sona
    0.07
     whisper
    0.07
    wona
    0.07
    चल
    0.07
    Act Density 0.004%

    No Known Activations