Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Spanish

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Decoration

-0.08

.JPG

-0.08

amp

-0.08

ýle

-0.08

Decode

-0.08

 Vacation

-0.07

 mastered

-0.07

Rush

-0.07

 poverty

-0.07

XT

-0.07

POSITIVE LOGITS

 государства

0.09

 банка

0.09

厂家

0.09

 работод

0.09

 правительства

0.08

 সরকার

0.08

 společnosti

0.08

 Jain

0.08

 father

0.08

 Sang

0.08

Activations Density 0.145%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact