INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     inflation
    -0.08
    奢华
    -0.08
    (square
    -0.07
     averaging
    -0.07
    -0.07
    _named
    -0.07
     consultation
    -0.07
    truncate
    -0.07
    -0.07
    つか
    -0.07
    POSITIVE LOGITS
    相助
    0.08
    里的
    0.07
     이렇게
    0.07
    0.07
     huh
    0.07
    この
    0.07
     Lastly
    0.07
     nơi
    0.07
    的经历
    0.06
    のように
    0.06
    Act Density 0.015%

    No Known Activations