INDEX
    Explanations

    structured representations of data

    New Auto-Interp
    Negative Logits
    iſchen
    -1.07
     betweenstory
    -1.06
    ſſung
    -1.04
     queſta
    -1.03
    ſelben
    -0.98
    mpagne
    -0.98
    ロウィン
    -0.98
     vooz
    -0.98
     témoig
    -0.97
     BoxFit
    -0.97
    POSITIVE LOGITS
            
    1.28
    		
    1.02
                            
    0.98
                    
    0.89
             
    0.88
              
    0.87
                
    0.84
           
    0.83
    						
    0.82
          
    0.81
    Act Density 0.110%

    No Known Activations