INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Podesta
    -0.07
     zeal
    -0.07
    -0.07
    avern
    -0.06
    หนอง
    -0.06
    -0.06
    -0.06
    晚会
    -0.06
    -0.06
    מועמד
    -0.06
    POSITIVE LOGITS
     leur
    0.08
    国外
    0.08
     Tôi
    0.08
    PX
    0.07
     Но
    0.07
           
    0.07
     taskId
    0.07
    gi
    0.07
    0.07
     shifted
    0.07
    Act Density 0.016%

    No Known Activations