INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     سبب
    -0.07
    	gen
    -0.06
     المد
    -0.06
     голови
    -0.06
     زمین
    -0.06
    ổi
    -0.06
     Lung
    -0.06
    _by
    -0.06
     دستی
    -0.06
     Libert
    -0.06
    POSITIVE LOGITS
    vably
    0.07
    apons
    0.07
     Multimedia
    0.06
    наруж
    0.06
    0.06
    -os
    0.06
    _pd
    0.06
    ativa
    0.06
    ycl
    0.06
    sko
    0.06
    Act Density 0.004%

    No Known Activations