INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     않아
    -0.09
     admire
    -0.08
    .Console
    -0.08
    -wrap
    -0.08
    िर
    -0.07
     pest
    -0.07
    -0.07
    isk
    -0.07
     acre
    -0.07
    aris
    -0.07
    POSITIVE LOGITS
    -même
    0.09
    ميز
    0.08
     bagi
    0.08
     ikaw
    0.07
    ؤلاء
    0.07
    -là
    0.07
    تان
    0.07
     dành
    0.07
    -mêmes
    0.07
     શ્રી
    0.07
    Act Density 0.032%

    No Known Activations