INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    živ
    -0.08
     roz
    -0.08
     إلي
    -0.07
    connect
    -0.07
     pupil
    -0.07
    .trailing
    -0.07
     complexion
    -0.07
     finales
    -0.07
     Ober
    -0.07
     પોલીસ
    -0.07
    POSITIVE LOGITS
     torno
    0.10
    0.09
    .wrap
    0.09
    ‌ب
    0.08
    起来
    0.08
    -around
    0.08
    包装
    0.08
     IDisposable
    0.08
     Wrap
    0.08
     wrap
    0.08
    Act Density 0.009%

    No Known Activations