INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ผม
    -0.08
    适合
    -0.07
     réussi
    -0.07
     sollte
    -0.07
     Altın
    -0.07
     ARISING
    -0.07
     więc
    -0.07
    终身
    -0.06
    ߝ
    -0.06
     إن
    -0.06
    POSITIVE LOGITS
    0.08
    主管部门
    0.08
    كات
    0.07
    engkap
    0.07
     Logger
    0.07
    egration
    0.07
     fused
    0.07
     prevalence
    0.07
     regulating
    0.07
    emat
    0.07
    Act Density 0.015%

    No Known Activations