INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    所以他
    -0.08
     Brave
    -0.08
    ')}}
    -0.08
    但是他
    -0.07
    也希望
    -0.07
    оцен
    -0.07
    感情
    -0.07
     Cue
    -0.07
    感到
    -0.06
     Derrick
    -0.06
    POSITIVE LOGITS
     `
    0.12
    0.08
    Improved
    0.08
    خير
    0.08
    .Initial
    0.08
     `$
    0.07
    内陆
    0.07
     `{
    0.07
    人脸
    0.07
     파일
    0.07
    Act Density 0.088%

    No Known Activations