INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     thủ
    -0.08
     ઘણી
    -0.07
     discurso
    -0.07
    asts
    -0.07
     perto
    -0.07
    证明
    -0.07
     നിരവധി
    -0.07
     gefragt
    -0.07
     ടെ
    -0.07
     физических
    -0.07
    POSITIVE LOGITS
    सर
    0.08
     Indeed
    0.08
     glad
    0.08
     plagiarism
    0.08
    ساعد
    0.08
     Mohamed
    0.08
    ύ
    0.08
     firstly
    0.08
     inderdaad
    0.08
     possibilities
    0.07
    Act Density 0.033%

    No Known Activations