INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    20
    -0.08
    15
    -0.07
     -
    -0.07
    19
    -0.07
    18
    -0.07
    	              
    -0.07
    14
    -0.07
    13
    -0.07
      	
    -0.06
    ۱۳
    -0.06
    POSITIVE LOGITS
     Stanley
    0.09
    chin
    0.08
     Jacob
    0.07
     Bradley
    0.07
    inci
    0.07
    Emily
    0.07
     Yang
    0.07
     Wilson
    0.07
     Cole
    0.07
    .concat
    0.07
    Act Density 0.088%

    No Known Activations