INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Damn
    -0.07
     Boehner
    -0.07
     گرفته
    -0.07
     einz
    -0.06
     гір
    -0.06
    stick
    -0.06
    ald
    -0.06
     AREA
    -0.06
       
    -0.06
     Fransa
    -0.06
    POSITIVE LOGITS
    ptron
    0.07
    сий
    0.06
    ATRIX
    0.06
    ,null
    0.06
    ğını
    0.06
    eleri
    0.06
    الى
    0.06
    रल
    0.06
    щины
    0.06
    	cr
    0.06
    Act Density 0.007%

    No Known Activations