INDEX
    Explanations

    states and descriptions

    New Auto-Interp
    Negative Logits
         
    0.47
             
    0.46
           
    0.44
               
    0.42
     indicates
    0.42
          
    0.41
       
    0.41
    a
    0.41
    		
    0.41
     avoids
    0.41
    POSITIVE LOGITS
     τότε
    0.46
     centaines
    0.44
     soooo
    0.43
     zupeł
    0.41
    ですし
    0.39
     люди
    0.39
     prestaciones
    0.39
     совсем
    0.38
     रिश्
    0.38
     partout
    0.38
    Act Density 0.112%

    No Known Activations