INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     wann
    -0.08
     allocated
    -0.08
     الفني
    -0.08
     depo
    -0.08
     álcool
    -0.08
     legger
    -0.08
     leve
    -0.08
    orado
    -0.08
     aspir
    -0.07
    /per
    -0.07
    POSITIVE LOGITS
     unfamiliar
    0.09
     understands
    0.09
     familiarize
    0.09
     представляет
    0.09
    是什么意思
    0.09
     refers
    0.08
     czym
    0.08
     acquaint
    0.08
     entails
    0.08
     términos
    0.08
    Act Density 0.041%

    No Known Activations