INDEX
    Explanations

    positive developments and their attributions

    New Auto-Interp
    Negative Logits
     ಅಥವಾ
    0.45
     లేదా
    0.45
    или
    0.40
    或其他
    0.40
     অপরের
    0.40
    或是
    0.38
     அல்லது
    0.38
    或者是
    0.38
     或者
    0.38
    或者
    0.37
    POSITIVE LOGITS
     díky
    0.77
     بسبب
    0.76
     due
    0.75
     thanks
    0.74
     grâce
    0.71
     gracias
    0.69
     graças
    0.68
     devido
    0.67
     dzięki
    0.66
     grazie
    0.65
    Act Density 0.117%

    No Known Activations