Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Text format and content generation

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 sogen

-0.09

 Sheng

-0.09

зв

-0.08

sta

-0.08

 sometime

-0.08

 же

-0.07

 siyang

-0.07

 viktig

-0.07

 люб

-0.07

 вист

-0.07

POSITIVE LOGITS

nor

0.22

 anymore

0.19

 سوى

0.17

 hoeft

0.15

 ούτε

0.15

 necessarily

0.15

nor

0.15

 ningún

0.15

 hoeven

0.15

 enää

0.15

Activations Density 2.168%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact