INDEX
    Explanations

    references to a specific book or concept (The Secret)

    New Auto-Interp
    Negative Logits
    <bos>
    -1.58
                
    -0.75
              
    -0.73
                    
    -0.72
            
    -0.72
                        
    -0.72
               
    -0.71
    			
    -0.71
                             
    -0.71
        
    -0.70
    POSITIVE LOGITS
     Juf
    1.96
     increa
    1.84
     fta
    1.81
     impra
    1.78
     affor
    1.77
     ftu
    1.75
     aen
    1.73
     fup
    1.73
     maneu
    1.73
     accla
    1.72
    Act Density 0.122%

    No Known Activations