INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     konsider
    -0.08
    έρ
    -0.07
     acredito
    -0.07
    ’ind
    -0.07
    ’ac
    -0.07
     positively
    -0.07
     accented
    -0.07
     empez
    -0.07
     begins
    -0.07
    'ind
    -0.07
    POSITIVE LOGITS
    }px
    0.07
    ņu
    0.07
     спр
    0.07
     وصف
    0.07
    arlow
    0.07
    ubi
    0.07
    0.07
     بے
    0.07
    тау
    0.07
     skil
    0.07
    Act Density 0.039%

    No Known Activations