INDEX
Explanations
frequent punctuation marks and formatting cues within text
New Auto-Interp
Negative Logits
dépens
-0.76
détru
-0.72
réfugi
-0.72
coû
-0.71
découver
-0.69
genoux
-0.69
refusé
-0.69
pitié
-0.68
écout
-0.66
supérieurs
-0.65
POSITIVE LOGITS
Dans
0.79
Dans
0.75
Il
0.74
Ils
0.73
Celui
0.73
Parmi
0.72
Cet
0.71
Ceux
0.71
Ces
0.70
Ce
0.70
Activations Density 0.078%