INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    i
    -0.09
    I
    -0.08
    PE
    -0.08
    ay
    -0.08
    a
    -0.08
    A
    -0.08
    ie
    -0.08
     I
    -0.08
     service
    -0.07
    pe
    -0.07
    POSITIVE LOGITS
     und
    0.11
     oder
    0.09
     Und
    0.08
     AND
    0.07
    .Cond
    0.07
    lops
    0.07
     lesbisk
    0.07
    Und
    0.07
     och
    0.06
     and
    0.06
    Act Density 0.040%

    No Known Activations