INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     із
    -0.08
     קצת
    -0.08
    	tr
    -0.08
     שיה
    -0.08
     SPO
    -0.08
     мах
    -0.07
    -0.07
     жол
    -0.07
     있는데
    -0.07
     آمد
    -0.07
    POSITIVE LOGITS
     nor
    0.09
    unless
    0.09
    .MESSAGE
    0.08
     zomaar
    0.08
     anymore
    0.08
     sequer
    0.08
     않습니다
    0.08
    Express
    0.08
    nor
    0.08
     Melayu
    0.08
    Act Density 0.039%

    No Known Activations