INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     segala
    -0.08
    >S
    -0.08
     indul
    -0.08
    uts
    -0.08
     matchs
    -0.08
    rw
    -0.07
     glor
    -0.07
    acions
    -0.07
    ni
    -0.07
    五月天
    -0.07
    POSITIVE LOGITS
     новые
    0.14
    新的
    0.14
     కొత్త
    0.14
     חדשים
    0.14
     새로운
    0.14
     новых
    0.14
     नया
    0.13
     nové
    0.13
     new
    0.13
     nuevos
    0.13
    Act Density 0.133%

    No Known Activations