INDEX
    Explanations

    states, conditions, or events

    New Auto-Interp
    Negative Logits
     др
    0.50
     אך
    0.46
    வரின்
    0.46
     하며
    0.46
     ін
    0.44
     stets
    0.43
     باقي
    0.43
     Meski
    0.43
     বঙ্গের
    0.42
    により
    0.41
    POSITIVE LOGITS
     ahorita
    0.86
     ähm
    0.80
     굉장히
    0.76
     tutaj
    0.73
     uh
    0.70
     poquito
    0.70
     Yeah
    0.68
    っていう
    0.67
    比如说
    0.66
    或者是
    0.64
    Act Density 0.024%

    No Known Activations