INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     تعتمد
    -0.08
     ru
    -0.08
     increasingly
    -0.07
     RTS
    -0.07
     ruth
    -0.07
    ↵				↵
    -0.07
    esta
    -0.07
     قوية
    -0.07
    Ye
    -0.07
     rs
    -0.07
    POSITIVE LOGITS
     zwembad
    0.09
     aangezien
    0.08
    ин
    0.08
    арип
    0.08
    邀请
    0.08
    本网
    0.08
    иний
    0.08
     canoe
    0.08
    .SP
    0.08
    ілер
    0.08
    Act Density 0.007%

    No Known Activations