INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    	df
    -0.08
     alpha
    -0.08
     Wed
    -0.08
    alpha
    -0.08
     vorgestellt
    -0.08
    	alpha
    -0.08
     Spurs
    -0.08
    _alpha
    -0.07
    (alpha
    -0.07
    -alpha
    -0.07
    POSITIVE LOGITS
    避免
    0.10
    正确
    0.10
    不会
    0.09
     inher
    0.09
     избежать
    0.09
    0.08
     avoid
    0.08
    真正
    0.08
     properly
    0.08
    -rec
    0.08
    Act Density 0.037%

    No Known Activations