INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     errone
    -0.08
    _needed
    -0.08
     noodles
    -0.08
    undes
    -0.08
    forming
    -0.08
     conceded
    -0.08
    -needed
    -0.08
     brauchen
    -0.07
     Fußball
    -0.07
     busiest
    -0.07
    POSITIVE LOGITS
    包括
    0.10
     сочет
    0.09
     embody
    0.09
    发挥
    0.09
    体现
    0.09
     involve
    0.09
    0.09
     intertw
    0.08
    针对
    0.08
    包含
    0.08
    Act Density 0.049%

    No Known Activations