Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

lifestyle

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 staats

-0.08

 Antonio

-0.08

Charm

-0.08

 Univers

-0.08

 chir

-0.07

 Dolls

-0.07

jig

-0.07

 تجربة

-0.07

Univers

-0.07

 Hitchcock

-0.07

POSITIVE LOGITS

 modifications

0.09

因素

0.08

 factors

0.08

 instituted

0.08

 পরিবর্ত

0.08

 obnov

0.08

 tweaks

0.08

choices

0.08

 choices

0.08

 Choices

0.08

Activations Density 0.004%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact