INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     wolf
    -0.07
    -0.07
     lift
    -0.07
     Should
    -0.07
     nota
    -0.07
    替换
    -0.07
    -envelope
    -0.07
    -0.07
    أطفال
    -0.07
    -0.07
    POSITIVE LOGITS
     devastation
    0.08
    imin
    0.07
    常年
    0.07
    thren
    0.07
    全国人民
    0.07
    */
    0.07
     Producer
    0.07
     Campaign
    0.07
    ことに
    0.07
    templ
    0.06
    Act Density 0.017%

    No Known Activations