INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     telescope
    -0.08
     ui
    -0.07
     Digital
    -0.07
    年轻人
    -0.07
    辜负
    -0.07
     muss
    -0.07
    绿茶
    -0.07
    ingen
    -0.07
    少女
    -0.07
    utt
    -0.07
    POSITIVE LOGITS
    `),↵
    0.08
    养殖场
    0.07
    0.07
     setters
    0.07
    сор
    0.07
    0.07
    #pragma
    0.07
     pobli
    0.07
    0.07
    0.07
    Act Density 0.004%

    No Known Activations