INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    nes
    -0.08
    _proc
    -0.08
     nes
    -0.08
     Now
    -0.08
    ust
    -0.07
     bipartisan
    -0.07
    ater
    -0.07
     اللي
    -0.07
    _intro
    -0.07
     Literary
    -0.07
    POSITIVE LOGITS
    冻结
    0.09
    0.08
    0.08
    毕业
    0.07
    0.07
    0.07
     allev
    0.07
    0.07
     såsom
    0.07
     alleviate
    0.07
    Act Density 0.000%

    No Known Activations