INDEX
Explanations
distinguishing between options
New Auto-Interp
Negative Logits
Và
0.39
ಹಾಗೂ
0.36
மற்றும்
0.35
असल्या
0.35
સહિત
0.34
Aufgrund
0.34
আৰু
0.34
आणि
0.33
?”
0.33
और
0.33
POSITIVE LOGITS
而是
0.96
बल्कि
0.80
بلکه
0.77
;
0.76
sondern
0.72
hanem
0.71
؛
0.68
sino
0.66
بلکہ
0.66
;
0.59
Activations Density 0.367%