INDEX
Explanations
positive developments and their attributions
New Auto-Interp
Negative Logits
ಅಥವಾ
0.45
లేదా
0.45
или
0.40
或其他
0.40
অপরের
0.40
或是
0.38
அல்லது
0.38
或者是
0.38
或者
0.38
或者
0.37
POSITIVE LOGITS
díky
0.77
بسبب
0.76
due
0.75
thanks
0.74
grâce
0.71
gracias
0.69
graças
0.68
devido
0.67
dzięki
0.66
grazie
0.65
Activations Density 0.117%