INDEX
Explanations
conditions for life
This neuron detects ordinary text tokens in the assistant’s generated answer passages (i.e. non‐header, non‐control words in the assistant’s prose).
New Auto-Interp
Negative Logits
буд
-0.07
下
-0.07
Interop
-0.07
预
-0.07
IST
-0.06
下
-0.06
_app
-0.06
Color
-0.06
壁
-0.06
sector
-0.06
POSITIVE LOGITS
(simp
0.07
몰
0.07
ighted
0.07
rix
0.06
virt
0.06
ترنت
0.06
Slack
0.06
Bahrain
0.06
jes
0.06
렉
0.06
Activations Density 0.013%