INDEX
Explanations
grammatical structures and phrases that indicate relationships or comparisons
New Auto-Interp
Negative Logits
Den
-0.30
seinen
-0.29
Den
-0.29
keinen
-0.28
Ihren
-0.28
ihren
-0.27
einen
-0.26
unseren
-0.26
DEN
-0.25
meinen
-0.25
POSITIVE LOGITS
der
0.47
das
0.32
die
0.31
es
0.31
der
0.31
dieser
0.28
ein
0.25
DER
0.25
Der
0.22
die
0.22
Activations Density 0.021%