INDEX

Explanations

discussions or interactions between individuals

oai_token-act-pair · gpt-3.5-turbo

New Auto-Interp

Configuration

neuronpedia/gpt2-small__res_scl-ajt/6-res_scl-ajt

Prompts (Dashboard)

12,288 prompts, 128 tokens each

Dataset (Dashboard)

Skylion007/openwebtext

Features

46,080

Data Type

torch.float32

Hook Point

blocks.6.hook_resid_pre

Architecture

standard

Context Size

128

Dataset

apollo-research/Skylion007-openwebtext-tokenizer-gpt2

Hook Point Layer

Activation Function

relu

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

animate

-0.15

 litter

-0.14

ignore

-0.14

inner

-0.13

arrell

-0.13

iddle

-0.13

ocks

-0.13

helps

-0.13

Tile

-0.12

cakes

-0.12

POSITIVE LOGITS

ļéĨĴ

0.19

nesday

0.15

 about

0.14

 detrim

0.14

IQ

0.14

IUM

0.13

 Velocity

0.13

lich

0.13

CLASSIFIED

0.13

TD

0.13

Activations Density 7.695%

discussions or interactions between individuals

No Comments

No Known Activations

discussions or interactions between individuals

No Comments

No Known Activations