INDEX
    Explanations

    contrast or qualification

    New Auto-Interp
    Negative Logits
    0.41
              
    0.40
             
    0.40
                    
    0.40
                
    0.38
    ا
    0.38
           
    0.38
                                   
    0.38
                       
    0.38
         
    0.37
    POSITIVE LOGITS
     digress
    0.34
    መሳሳይ
    0.31
    થે
    0.31
    ть
    0.31
    ار
    0.30
    ternut
    0.30
     আপনি
    0.30
    esin
    0.30
     sẻ
    0.29
    도를
    0.29
    Act Density 0.047%

    No Known Activations