INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    aucoup
    -0.09
     Specifically
    -0.08
     ultra
    -0.08
    ulación
    -0.08
    --------↵
    -0.08
     infatti
    -0.08
     primaire
    -0.07
    alite
    -0.07
    ifically
    -0.07
     creemos
    -0.07
    POSITIVE LOGITS
     fate
    0.09
     wisdom
    0.09
    ومان
    0.08
    Bra
    0.08
    人生
    0.07
    UZ
    0.07
     measurement
    0.07
     Sak
    0.07
    ור
    0.07
     imperfections
    0.07
    Act Density 0.043%

    No Known Activations