INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     appeal
    -0.09
     complicada
    -0.08
     zmian
    -0.08
     geändert
    -0.08
    Decor
    -0.07
     decorating
    -0.07
     chore
    -0.07
     decorations
    -0.07
     ornate
    -0.07
     longa
    -0.07
    POSITIVE LOGITS
     Brown
    0.09
    产生
    0.08
     pioneering
    0.08
    white
    0.08
    Brown
    0.08
    证券
    0.07
     amplifier
    0.07
    工资
    0.07
    рать
    0.07
    ысын
    0.07
    Act Density 0.003%

    No Known Activations