INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     rand
    -0.07
     fwd
    -0.07
     FALL
    -0.07
    -0.07
     Bur
    -0.06
     Partition
    -0.06
    	cnt
    -0.06
     cutoff
    -0.06
     bern
    -0.06
    	bar
    -0.06
    POSITIVE LOGITS
     simple
    0.13
     Simple
    0.10
    imple
    0.09
    Simple
    0.09
    simple
    0.08
    	Simple
    0.08
    simp
    0.07
    .simple
    0.07
     Elementary
    0.07
    ispiel
    0.07
    Act Density 0.032%

    No Known Activations