Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

小

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 vocals

-0.08

 Goods

-0.08

 году

-0.08

 hoeven

-0.08

↵

-0.08

 разруш

-0.08

 goods

-0.08

 отнош

-0.08

 Именно

-0.07

 ग्रह

-0.07

POSITIVE LOGITS

 astuces

0.10

 Tipps

0.10

 teaser

0.09

TIP

0.09

 Twitter

0.09

 disciplinary

0.08

技巧

0.08

 caution

0.08

�

0.08

 dicas

0.08

Activations Density 0.002%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact