INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    IFIC
    -0.07
     partying
    -0.07
     disruptive
    -0.07
     Malone
    -0.07
     taraf
    -0.07
     xhr
    -0.07
     wund
    -0.07
     prestige
    -0.07
     promise
    -0.07
     Kors
    -0.07
    POSITIVE LOGITS
     بسیاری
    0.09
     انواع
    0.09
    faidh
    0.08
     امور
    0.08
    ئات
    0.08
    beit
    0.08
    عديد
    0.08
     tasks
    0.08
    用途
    0.07
    各种
    0.07
    Act Density 0.056%

    No Known Activations