Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

joke

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_3/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Kud

-0.09

 worthy

-0.08

 transpl

-0.08

 Bram

-0.08

 Chelsea

-0.08

\Input

-0.08

 Heads

-0.08

�

-0.08

 Witt

-0.07

rnd

-0.07

POSITIVE LOGITS

 besteden

0.07

Recovery

0.07

െയുള്ള

0.07

 respiration

0.07

 платить

0.07

 basta

0.07

 herstellen

0.07

’ll

0.06

Buffered

0.06

 Dauer

0.06

Activations Density 0.002%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact