INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     bigot
    -0.07
    ventas
    -0.07
     Dragon
    -0.06
    emales
    -0.06
     اصفه
    -0.06
    列表
    -0.06
    Rob
    -0.06
    、、
    -0.06
     administrative
    -0.06
     shl
    -0.06
    POSITIVE LOGITS
     Nom
    0.07
    CK
    0.07
     nom
    0.06
    Nom
    0.06
    esterday
    0.06
    orry
    0.06
    iddet
    0.06
     Sm
    0.06
    ldkf
    0.06
    hr
    0.06
    Act Density 0.031%

    No Known Activations