INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     mas
    -0.09
     Nj
    -0.08
     nghĩa
    -0.08
     थे
    -0.07
     menc
    -0.07
    'emploi
    -0.07
     Sunderland
    -0.07
     ME
    -0.07
    ناد
    -0.07
     Kak
    -0.07
    POSITIVE LOGITS
     belly
    0.10
    bone
    0.08
    ಾಕ
    0.08
     dold
    0.08
     kissed
    0.08
     Ayur
    0.08
     Whites
    0.08
    ിലേക്ക്
    0.08
    0.08
     हिस्सा
    0.07
    Act Density 0.004%

    No Known Activations