INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    idde
    -0.09
     admitting
    -0.08
     uu
    -0.07
     کی
    -0.07
    -0.07
     firmy
    -0.07
     parted
    -0.07
     вести
    -0.07
    pray
    -0.07
    affa
    -0.07
    POSITIVE LOGITS
    福利
    0.08
     WS
    0.08
     jaw
    0.07
     multis
    0.07
     fem
    0.07
     hel
    0.07
    0.07
     mandib
    0.07
     stk
    0.07
    0.07
    Act Density 0.107%

    No Known Activations