INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    গত
    -0.09
    -0.08
     Extrem
    -0.08
    /gen
    -0.08
    イル
    -0.07
     couches
    -0.07
    .preference
    -0.07
    امين
    -0.07
    эль
    -0.07
    arkin
    -0.07
    POSITIVE LOGITS
     לנו
    0.10
     owed
    0.09
     envers
    0.09
     owe
    0.09
     לך
    0.09
     kepada
    0.09
     לכם
    0.09
     להם
    0.08
     ಹಣ
    0.08
     owes
    0.08
    Act Density 0.017%

    No Known Activations