INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     स्वस्थ
    -0.08
     eure
    -0.08
     നല്ല
    -0.08
    一定
    -0.08
     wybor
    -0.07
    ssystem
    -0.07
     चुनाव
    -0.07
     ಆಚ
    -0.07
    .skill
    -0.07
    را
    -0.07
    POSITIVE LOGITS
     national
    0.08
     nationale
    0.08
     society
    0.07
     imaginable
    0.07
    ាក
    0.07
     fucking
    0.07
     Boo
    0.07
     giro
    0.07
     nasional
    0.07
    irty
    0.07
    Act Density 0.024%

    No Known Activations