Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

academic writing

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

्यार

-0.08

 cancellation

-0.08

 Canc

-0.08

_Start

-0.07

 preparation

-0.07

Canc

-0.07

xl

-0.07

 Cancellation

-0.07

	Start

-0.07

 Telescope

-0.07

POSITIVE LOGITS

blockquote

0.09

引用

0.08

 gloss

0.08

 Aussagen

0.08

Annot

0.08

哪个

0.08

 referencing

0.08

 cites

0.08

 לט

0.08

 absorb

0.08

Activations Density 0.019%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact