INDEX
    Explanations

    instances of the word "de" in various contexts

    New Auto-Interp
    Negative Logits
    e
    -0.41
    d
    -0.41
    n
    -0.36
    t
    -0.35
    m
    -0.35
    x
    -0.33
    c
    -0.31
    ν
    -0.24
    k
    -0.24
    g
    -0.23
    POSITIVE LOGITS
    ei
    0.24
    iw
    0.22
    eo
    0.22
    ez
    0.21
    eam
    0.21
    ea
    0.20
    een
    0.20
    aq
    0.20
    ees
    0.19
    eq
    0.19
    Act Density 0.109%

    No Known Activations