INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     notorious
    -0.08
    тина
    -0.07
    -0.07
    оген
    -0.07
    -xs
    -0.07
    ిండ
    -0.07
    身份证
    -0.07
     sogenannte
    -0.07
     polarized
    -0.07
     деш
    -0.07
    POSITIVE LOGITS
     Mas
    0.08
     tweet
    0.07
    Miles
    0.07
    0.07
     sonn
    0.07
    wch
    0.07
     Lud
    0.07
    stake
    0.07
    0.07
    Ã
    0.07
    Act Density 0.199%

    No Known Activations