INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    transparent
    -0.07
     makeover
    -0.06
     Serv
    -0.06
     Doc
    -0.06
    -0.06
    /u
    -0.05
    82
    -0.05
    Eu
    -0.05
    _MAX
    -0.05
     gettext
    -0.05
    POSITIVE LOGITS
    :index
    0.07
     welcomed
    0.06
    ,没有
    0.06
     Reddit
    0.06
     alla
    0.06
    apple
    0.06
    reed
    0.06
     lle
    0.06
     neu
    0.06
     бума
    0.06
    Act Density 0.011%

    No Known Activations