INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     detox
    -0.08
    两人
    -0.08
    选拔
    -0.08
    -0.07
     welding
    -0.06
    oug
    -0.06
    ;k
    -0.06
     Ere
    -0.06
     Tax
    -0.06
    兵器
    -0.06
    POSITIVE LOGITS
    --------↵
    0.07
    creator
    0.07
    0.07
    stract
    0.07
    0.07
    Yang
    0.07
    (datas
    0.06
     works
    0.06
    -LAST
    0.06
     datas
    0.06
    Act Density 0.024%

    No Known Activations