INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     poo
    -0.07
     männer
    -0.07
     overflowing
    -0.07
     Ree
    -0.06
    894
    -0.06
     Lore
    -0.06
     ö
    -0.06
     erro
    -0.06
     manten
    -0.06
     deterioration
    -0.06
    POSITIVE LOGITS
    ist
    0.11
    ologist
    0.11
    IST
    0.11
    list
    0.09
     therapist
    0.09
    ists
    0.08
    ologists
    0.08
    ович
    0.08
     Methodist
    0.08
    στ
    0.08
    Act Density 0.060%

    No Known Activations