INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Participation
    -0.08
     participación
    -0.08
    完成
    -0.08
    итан
    -0.08
     participation
    -0.08
     teilnehmen
    -0.07
     Teilnehmer
    -0.07
     posebej
    -0.07
    参与
    -0.07
     Umsetzung
    -0.07
    POSITIVE LOGITS
     وعن
    0.09
    ър
    0.08
    í
    0.08
    ρός
    0.08
     בעולם
    0.07
     থেকেই
    0.07
     priorities
    0.07
     چیست
    0.07
     hurt
    0.07
    Հ
    0.07
    Act Density 0.017%

    No Known Activations