INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Vision
    -0.08
     fing
    -0.08
     noisy
    -0.07
    	     
    -0.07
    errno
    -0.07
    [V
    -0.07
     Shoe
    -0.07
     verifier
    -0.07
     ві
    -0.06
     beliefs
    -0.06
    POSITIVE LOGITS
    652
    0.10
    65
    0.10
    681
    0.10
    68
    0.10
    653
    0.10
    659
    0.10
    690
    0.10
    0.09
    67
    0.09
    656
    0.09
    Act Density 0.097%

    No Known Activations