INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     parenthesis
    -0.08
    веден
    -0.07
    -0.07
    נייר
    -0.07
    -0.07
    Mismatch
    -0.07
     maximize
    -0.07
     iota
    -0.07
    两类
    -0.07
    -0.07
    POSITIVE LOGITS
    0.08
    uns
    0.08
    	F
    0.07
     slower
    0.06
    Dr
    0.06
    und
    0.06
    _draft
    0.06
     neste
    0.06
    аб
    0.06
     durch
    0.06
    Act Density 0.103%

    No Known Activations