INDEX
    Explanations

    how predictions are found

    New Auto-Interp
    Negative Logits
     किंवा
    0.47
    או
    0.46
     মন্ত্রণালয়
    0.46
     χωρίς
    0.45
    duh
    0.44
    Roz
    0.43
    ร่างกาย
    0.43
    c
    0.43
    passe
    0.43
    और
    0.42
    POSITIVE LOGITS
     envisaged
    0.46
     घोटाले
    0.42
    خبار
    0.39
    émica
    0.38
     fraud
    0.38
     cosy
    0.38
    성이
    0.37
    нон
    0.37
     möglich
    0.37
    igata
    0.37
    Act Density 0.014%

    No Known Activations