Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

an

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Нед

-0.09

 seriously

-0.08

cole

-0.08

 Нед

-0.08

 confidentialité

-0.08

 serious

-0.07

 measurements

-0.07

.element

-0.07

бор

-0.07

 Landkreis

-0.07

POSITIVE LOGITS

 حضور

0.08

 tents

0.08

 Hogan

0.08

 garages

0.08

 verbre

0.08

 sprawling

0.08

azes

0.08

 الح

0.07

 гара

0.07

yay

0.07

Activations Density 0.002%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact