Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

of

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 scrib

-0.09

 Necklace

-0.09

 acuerdos

-0.09

ainted

-0.09

 Jaguars

-0.08

 Mitar

-0.08

 spruce

-0.08

Margin

-0.08

-0.08

 Lehrer

-0.08

POSITIVE LOGITS

世界

0.13

 society

0.12

 दुनिया

0.12

生活

0.12

 العالم

0.11

 દુન

0.11

 düny

0.11

 duniya

0.11

 samenleving

0.11

 زندگی

0.11

Activations Density 0.153%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact