INDEX
    Explanations

    structured data and numerical references

    New Auto-Interp
    Negative Logits
                       
    -0.28
                     
    -0.26
                      
    -0.26
     Âł Âł Âł Âł Âł Âł Âł Âł
    -0.25
                   
    -0.25
    ãĢĢãĢĢãĢĢãĢĢãĢĢãĢĢãĢĢãĢĢãĢĢ
    -0.25
                        
    -0.24
                    
    -0.24
    ãĢĢãĢĢãĢĢãĢĢãĢĢãĢĢãĢĢ
    -0.24
    Âł Âł Âł Âł Âł Âł Âł Âł Âł
    -0.24
    POSITIVE LOGITS
        
    0.28
       
    0.26
      
    0.25
         
    0.24
    ³³³³
    0.21
    ³³³
    0.19
    0.19
    	 
    0.19
    	  
    0.18
    ³³³³³
    0.18
    Act Density 0.018%

    No Known Activations