Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

excited

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 sanctuary

-0.08

 dren

-0.08

 Rights

-0.08

ાંક

-0.08

 impec

-0.08

 Quil

-0.07

מען

-0.07

 Ebene

-0.07

 Sanctuary

-0.07

 Cartesian

-0.07

POSITIVE LOGITS

/st

0.08

 enough

0.08

%^

0.07

 developments

0.07

 רבה

0.07

-provoking

0.07

geladen

0.07

로운

0.07

 excitement

0.07

 communaut

0.07

Activations Density 0.016%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact