INDEX
    Explanations

    Number tokens

    New Auto-Interp
    Negative Logits
    -0.08
     también
    -0.07
     trí
    -0.07
     DEP
    -0.07
     bienestar
    -0.07
    -0.07
     polling
    -0.07
     página
    -0.07
     depres
    -0.07
     temprano
    -0.07
    POSITIVE LOGITS
    ança
    0.08
     jad
    0.08
    ֶ
    0.08
    طع
    0.08
    voud
    0.08
    0.08
     racks
    0.08
     Č
    0.08
    .Part
    0.08
    بد
    0.07
    Act Density 0.052%

    No Known Activations