INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ње
    -0.09
     Karin
    -0.09
    -0.09
    auftrag
    -0.08
     Kathryn
    -0.08
    lüsse
    -0.08
    արձ
    -0.08
     execute
    -0.08
    纪委
    -0.08
     יוצ
    -0.08
    POSITIVE LOGITS
     preference
    0.10
     preferência
    0.10
     preferencias
    0.09
     preferences
    0.09
     Preference
    0.09
     prefere
    0.08
     dilem
    0.08
    Preference
    0.08
     tercih
    0.08
     предпоч
    0.08
    Act Density 0.040%

    No Known Activations