Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

cash

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 explain

-0.07

命

-0.07

 genoemde

-0.07

 hopeful

-0.07

 ensure

-0.07

区

-0.07

 unnecessary

-0.07

 request

-0.07

详情

-0.07

clar

-0.06

POSITIVE LOGITS

 Gutschein

0.10

 Instead

0.10

 대신

0.10

 Alternatives

0.10

 amafaranga

0.10

Instead

0.10

 ֆինանս

0.09

 stipend

0.09

 деньги

0.09

Equivalent

0.09

Activations Density 0.063%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact