INDEX
    Explanations

    programming or markup-related syntax elements

    New Auto-Interp
    Negative Logits
    -0.83
    ↵↵
    -0.76
    Portail
    -0.61
    ↵↵↵
    -0.56
    tanleria
    -0.51
    ArrowToggle
    -0.49
    ↵↵↵↵
    -0.48
    大利
    -0.46
    دانشنامهٔ
    -0.44
    ↵↵↵↵↵
    -0.43
    POSITIVE LOGITS
                
    0.83
                    
    0.81
                        
    0.80
                            
    0.78
            
    0.77
                  
    0.77
                      
    0.77
              
    0.75
                                
    0.74
          
    0.72
    Act Density 0.457%

    No Known Activations