INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     στον
    -0.08
    Neb
    -0.07
     בפני
    -0.07
     standout
    -0.07
    -0.07
     Vy
    -0.07
    staff
    -0.07
    -0.07
    liefer
    -0.07
     Dob
    -0.07
    POSITIVE LOGITS
     Rana
    0.09
    นี้
    0.08
     tertentu
    0.08
     García
    0.08
    เดียว
    0.08
     Aller
    0.08
     pij
    0.07
     wholes
    0.07
    tg
    0.07
     što
    0.07
    Act Density 0.126%

    No Known Activations