INDEX

Explanations

safety and risk

The neuron spotlights conditional warning or advisory phrases—i.e. “if …, do (not) …” style constructions.

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

Negative Logits

之内

-0.88

ဟ

-0.87

только

-0.87

avoie

-0.85

 voyons

-0.85

FAKE

-0.84

UML

-0.83

 faudra

-0.83

其实

-0.83

hints

-0.82

POSITIVE LOGITS

 safety

1.44

 risk

1.39

 precautionary

1.37

 safe

1.30

 uncertainty

1.28

 безопас

1.23

Risk

1.23

 safer

1.16

 precaution

1.15

risk

1.13

Activations Density 0.035%