INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Probe
    -0.07
    Instruction
    -0.07
    حت
    -0.06
    icia
    -0.06
        				
    -0.06
     introduction
    -0.06
    												
    -0.06
    										
    -0.06
    رس
    -0.06
                                                          
    -0.06
    POSITIVE LOGITS
    sunuz
    0.07
     براى
    0.06
     başar
    0.06
    LONG
    0.06
     Tomas
    0.06
    нім
    0.06
    طة
    0.06
     Franti
    0.06
     галузі
    0.06
    _datas
    0.06
    Act Density 0.022%

    No Known Activations