INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     국가
    -0.08
    sonian
    -0.08
    总队
    -0.07
     should
    -0.07
     sculptures
    -0.07
    Ϣ
    -0.07
    盒子
    -0.07
    -0.06
     gap
    -0.06
    -0.06
    POSITIVE LOGITS
     péri
    0.07
     MICRO
    0.07
     całego
    0.07
    评价
    0.07
    0.07
     фин
    0.07
     Doing
    0.07
    重症
    0.07
    0.07
    _lin
    0.07
    Act Density 0.067%

    No Known Activations