INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     aleg
    -0.09
    shal
    -0.08
     Marc
    -0.07
    askan
    -0.07
    MP
    -0.07
    AGR
    -0.07
                                                                         
    -0.07
     Philippe
    -0.07
    'al
    -0.07
     высокого
    -0.07
    POSITIVE LOGITS
    0.09
     behold
    0.09
    ף
    0.08
    بود
    0.08
     سرمایه
    0.07
    0.07
     muốn
    0.07
    loir
    0.07
     पैदा
    0.07
    جوی
    0.07
    Act Density 0.054%

    No Known Activations