Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

pain

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 جو

-0.08

groep

-0.08

 vault

-0.07

 awakening

-0.07

endors

-0.07

Limits

-0.07

 Omaha

-0.07

-toolbar

-0.07

 narciss

-0.07

levator

-0.07

POSITIVE LOGITS

 sedation

0.08

 mutations

0.08

用了

0.08

 deployments

0.07

 pomoc

0.07

 opacity

0.07

ffff

0.07

 treatments

0.07

 workloads

0.07

 inflammation

0.07

Activations Density 0.007%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact