INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     adopted
    -0.07
     konut
    -0.06
     Ebola
    -0.06
    غاز
    -0.06
     سنت
    -0.06
    CTS
    -0.06
     illeg
    -0.06
    اپیم
    -0.06
     Elijah
    -0.06
     επί
    -0.06
    POSITIVE LOGITS
    adj
    0.07
    检查
    0.07
    rior
    0.07
     fears
    0.06
     whistlebl
    0.06
    λαν
    0.06
     felt
    0.06
    остав
    0.06
    Db
    0.06
     ''),↵
    0.06
    Act Density 0.006%

    No Known Activations