INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ایجاد
    -0.07
     tespit
    -0.07
    Crear
    -0.07
     تغییر
    -0.07
     fragile
    -0.06
     LOCK
    -0.06
     oleh
    -0.06
     captive
    -0.06
    .put
    -0.06
    ديث
    -0.06
    POSITIVE LOGITS
     {
    0.07
    acterial
    0.07
    ϊκ
    0.06
    	props
    0.06
    apellido
    0.06
    _Property
    0.06
     Colorado
    0.06
    terrorism
    0.06
    _EXTRA
    0.06
     erk
    0.06
    Act Density 0.001%

    No Known Activations