INDEX

Explanations

apologies or expressions of regret

oai_token-act-pair · gpt-3.5-turbo

New Auto-Interp

Configuration

neuronpedia/gpt2-small__res_scefr-ajt/6-res_scefr-ajt

Prompts (Dashboard)

12,288 prompts, 128 tokens each

Dataset (Dashboard)

Skylion007/openwebtext

Features

46,080

Data Type

torch.float32

Hook Point

blocks.6.hook_resid_pre

Architecture

standard

Context Size

128

Dataset

apollo-research/Skylion007-openwebtext-tokenizer-gpt2

Hook Point Layer

Activation Function

relu

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Ranked

-1.19

tnc

-1.03

arnaev

-0.95

irrel

-0.95

ieth

-0.91

icle

-0.91

krit

-0.90

sports

-0.89

edience

-0.89

buck

-0.87

POSITIVE LOGITS

 sorry

1.31

 excuse

1.29

GES

1.13

 excuses

1.01

tm

1.00

sorry

0.99

vm

0.98

Sorry

0.94

 Customers

0.92

SQL

0.91

Activations Density 0.392%

apologies or expressions of regret

No Comments

No Known Activations

apologies or expressions of regret

No Comments

No Known Activations