INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     tendencies
    -0.08
     influential
    -0.08
     tandem
    -0.08
     benodigde
    -0.08
     powerhouse
    -0.08
    spread
    -0.07
     obligado
    -0.07
     invloed
    -0.07
     কৰিছিল
    -0.07
     tund
    -0.07
    POSITIVE LOGITS
     גבוה
    0.10
     tinggi
    0.10
     hohe
    0.10
    สูง
    0.10
     élevés
    0.10
     높은
    0.10
     émotion
    0.09
     elevados
    0.09
     گذاری
    0.09
     élev
    0.09
    Act Density 0.003%

    No Known Activations