INDEX
    Explanations

    Counting characters/words

    New Auto-Interp
    Negative Logits
     Cesar
    -0.08
     gnc
    -0.08
    שה
    -0.08
     tty
    -0.07
     Nijmegen
    -0.07
     kosher
    -0.07
     avión
    -0.07
     vegetarian
    -0.07
     z
    -0.07
    نه
    -0.07
    POSITIVE LOGITS
    影响
    0.09
    处罚
    0.08
     except
    0.08
     whereas
    0.08
     derrière
    0.08
     while
    0.07
    作用
    0.07
    уль
    0.07
     excuse
    0.07
     penal
    0.07
    Act Density 0.019%

    No Known Activations