INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.06
     display
    -0.06
     Accord
    -0.06
     lever
    -0.06
     Error
    -0.06
    ORD
    -0.06
     displays
    -0.06
    vig
    -0.06
    276
    -0.06
    ords
    -0.06
    POSITIVE LOGITS
     DISCLAIMS
    0.08
     следует
    0.07
     زنان
    0.07
    РН
    0.07
     Successfully
    0.07
    рія
    0.07
    มน
    0.06
    ][:
    0.06
     необхідно
    0.06
    (confirm
    0.06
    Act Density 0.004%

    No Known Activations