INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    	virtual
    -0.09
    oride
    -0.08
    alties
    -0.08
     jugando
    -0.08
     indiqué
    -0.08
    operate
    -0.08
     indicado
    -0.07
     attire
    -0.07
    ligt
    -0.07
     IMPORT
    -0.07
    POSITIVE LOGITS
    0.10
    事故
    0.08
     biases
    0.08
     dadurch
    0.08
     vermeiden
    0.08
     boredom
    0.07
     bias
    0.07
    遗漏
    0.07
     избежать
    0.07
     pathological
    0.07
    Act Density 0.007%

    No Known Activations