INDEX
    Explanations

    frequent punctuation marks and formatting cues within text

    New Auto-Interp
    Negative Logits
     dépens
    -0.76
     détru
    -0.72
     réfugi
    -0.72
     coû
    -0.71
     découver
    -0.69
     genoux
    -0.69
     refusé
    -0.69
     pitié
    -0.68
     écout
    -0.66
     supérieurs
    -0.65
    POSITIVE LOGITS
     Dans
    0.79
    Dans
    0.75
     Il
    0.74
     Ils
    0.73
     Celui
    0.73
     Parmi
    0.72
     Cet
    0.71
     Ceux
    0.71
     Ces
    0.70
     Ce
    0.70
    Act Density 0.078%

    No Known Activations