INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    q
    -0.07
     đối
    -0.07
     chiar
    -0.07
     agreeing
    -0.07
    Occ
    -0.07
     awards
    -0.07
    sweet
    -0.07
     toDate
    -0.07
    games
    -0.06
    onald
    -0.06
    POSITIVE LOGITS
    しても
    0.07
     באמצעות
    0.07
     urinary
    0.07
     بين
    0.07
     metabolism
    0.07
     Muslims
    0.07
     SIM
    0.07
     gsi
    0.07
     tên
    0.06
     Почему
    0.06
    Act Density 0.006%

    No Known Activations