INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     voulais
    -0.08
    批准
    -0.08
     Alloy
    -0.07
    -0.07
     Jour
    -0.07
    wir
    -0.07
     Louvre
    -0.07
     Transmission
    -0.07
     SIMPLE
    -0.07
     stray
    -0.07
    POSITIVE LOGITS
     wahr
    0.09
    _traits
    0.08
     perceived
    0.08
     bezeichnet
    0.08
     económ
    0.08
     traits
    0.08
    traits
    0.08
     нович
    0.08
     perceb
    0.08
     ظهور
    0.08
    Act Density 0.003%

    No Known Activations