INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Unisex
    0.43
     إليه
    0.42
    เสมอ
    0.40
     eran
    0.40
     годы
    0.39
     ವ್ಯ
    0.38
    ەوە
    0.38
     erau
    0.38
     nadal
    0.37
    ไม่มี
    0.37
    POSITIVE LOGITS
    pens
    0.45
     aplicação
    0.41
    Ql
    0.38
    toolStrip
    0.37
    Cet
    0.37
    плу
    0.36
    dba
    0.36
    ('|
    0.36
    experimental
    0.36
    Tou
    0.35
    Act Density 0.000%

    No Known Activations