INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     улыб
    -0.08
     ви
    -0.08
     sorriso
    -0.07
    apture
    -0.07
    -an
    -0.07
     mouths
    -0.07
     traff
    -0.07
     мав
    -0.07
     amarga
    -0.07
     smile
    -0.07
    POSITIVE LOGITS
    0.08
    ètement
    0.08
     aimer
    0.08
     మొద
    0.08
     perpendicular
    0.08
    Pow
    0.08
    元素
    0.07
    encils
    0.07
    .interfaces
    0.07
     alliances
    0.07
    Act Density 0.014%

    No Known Activations