INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Straw
    -0.07
     لك
    -0.07
    原本
    -0.07
    first
    -0.07
     gran
    -0.06
     Gran
    -0.06
     prostituerade
    -0.06
     اسم
    -0.06
     Robertson
    -0.06
    -0.06
    POSITIVE LOGITS
     e
    0.12
     y
    0.10
     and
    0.10
     et
    0.10
    e
    0.09
    \E
    0.09
    E
    0.08
    +E
    0.08
    y
    0.08
    е
    0.08
    Act Density 0.160%

    No Known Activations