INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     سنة
    -0.08
    rzą
    -0.07
     chin
    -0.07
     charisma
    -0.07
     lil
    -0.07
    attrib
    -0.07
     Silk
    -0.07
     Uttar
    -0.07
    strip
    -0.07
    变现
    -0.07
    POSITIVE LOGITS
     Moż
    0.08
     abortion
    0.08
     abort
    0.07
     lẽ
    0.07
     plunged
    0.07
     aborted
    0.07
    .MOD
    0.07
     spill
    0.07
     وأضاف
    0.07
    .qu
    0.07
    Act Density 0.003%

    No Known Activations