Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

list

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

müş

-0.08

 تج

-0.08

 فرد

-0.08

 setbacks

-0.08

 تسم

-0.08

 conversational

-0.08

 استقبال

-0.07

 Selenium

-0.07

 scrolling

-0.07

 يدخل

-0.07

POSITIVE LOGITS

\Blueprint

0.08

 emotions

0.08

 lite

0.08

 emerge

0.08

 Rapids

0.07

টার

0.07

Hop

0.07

Hop

0.07

 emerges

0.07

Hof

0.07

Activations Density 0.001%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact