© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact

Neuronpedia

Natural Language

NEW Assistant AxisNEW Circuit TracerUPDATESteer SAE Evals ExportsAPI Community Blog Privacy & Terms Contact

Home
GPT2-Small
Transcoders Residuals
8-TRES-DC
360

INDEX

Explanations

punctuation marks and colons that introduce lists or statements

oai_token-act-pair · gpt-4o-mini Triggered by @bot

New Auto-Interp

Top Features by Cosine Similarity

Embeds

Show PlotsShow ExplanationShow ActivationsShow Test FieldShow SteerShow Link

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

TNT

-0.61

Reloaded

-0.59

 bour

-0.55

 abyss

-0.54

IZ

-0.54

ELD

-0.53

 Zombies

-0.53

maid

-0.52

erville

-0.51

 ages

-0.51

POSITIVE LOGITS

ividual

1.00

vote

0.73

cknow

0.73

keep

0.71

imize

0.70

 listen

0.67

 interfere

0.66

gradation

0.66

try

0.66

peat

0.65

Activations Density 0.424%

No Known Activations