INDEX
Explanations
but and contrastive conjunctions
New Auto-Interp
Negative Logits
،
0.24
\",
0.20
、
0.20
,
0.19
፣
0.18
ئ
0.18
0.18
L
0.17
\"
0.17
↵
0.17
POSITIVE LOGITS
but
0.41
लेकिन
0.38
but
0.38
nhưng
0.37
แต่
0.32
لكن
0.32
אבל
0.31
pero
0.31
কিন্তু
0.31
lakini
0.30
Activations Density 0.234%