© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact

Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

Home
Andy Arditi · GPT-OSS BatchTopK SAEs
GPT-OSS-20B
Resid Post - 131k
11-RESID-POST-AA
65485

INDEX

Explanations

absurdity and humor

np_max-act · gemini-2.0-flash

New Auto-Interp

Top Features by Cosine Similarity

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

No Configuration Found

Embeds

Show PlotsShow ExplanationShow ActivationsShow Test FieldShow SteerShow Link

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 νε

-0.09

 суще

-0.08

 сформ

-0.08

.Н

-0.08

kani

-0.08

 പല

-0.08

,we

-0.08

 данной

-0.08

.Т

-0.08

 формирования

-0.08

POSITIVE LOGITS

 hilarious

0.15

 bizarre

0.15

 😂

0.14

 absurd

0.14

 ridiculously

0.14

 antics

0.13

 quirky

0.13

 amusing

0.13

 jokes

0.12

 ridiculous

0.12

Activations Density 1.350%

No Known Activations