INDEX

Explanations

This neuron detects explicit instructions and formatting or response directives in system or prompt text.

New Auto-Interp

Configuration

Prompts (Dashboard)

273,612 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

<unused1468>

0.52

<unused1465>

0.51

<unused1563>

0.51

<unused1438>

0.50

<unused1453>

0.49

<unused2204>

0.49

<unused801>

0.49

<unused763>

0.49

<unused1377>

0.49

<unused2197>

0.48

POSITIVE LOGITS

0.34

 위한

0.32

Do

0.32

어

0.32

Pot

0.32

Sa

0.31

이란

0.30

 Group

0.30

 Tool

0.30

Activations Density 0.021%