INDEX
Explanations
instances of French articles and quantifiers
New Auto-Interp
Negative Logits
fumée
-0.86
suivantes
-0.79
armée
-0.77
économie
-0.74
Література
-0.73
totalité
-0.69
Sociale
-0.68
amitié
-0.67
Carney
-0.67
charité
-0.67
POSITIVE LOGITS
a
1.23
một
1.16
einem
1.15
Một
1.14
Une
1.12
एक
1.09
Eine
1.09
une
1.08
एक
1.08
یک
1.08
Activations Density 0.052%