INDEX
    Explanations

    grammatical structures and phrases that indicate relationships or comparisons

    New Auto-Interp
    Negative Logits
    Den
    -0.30
     seinen
    -0.29
     Den
    -0.29
     keinen
    -0.28
     Ihren
    -0.28
     ihren
    -0.27
     einen
    -0.26
     unseren
    -0.26
     DEN
    -0.25
     meinen
    -0.25
    POSITIVE LOGITS
     der
    0.47
     das
    0.32
     die
    0.31
     es
    0.31
    der
    0.31
     dieser
    0.28
     ein
    0.25
     DER
    0.25
    Der
    0.22
    die
    0.22
    Act Density 0.021%

    No Known Activations