Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

to

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Collapse

-0.08

 adicional

-0.08

 Dresses

-0.08

 Suspend

-0.08

 Update

-0.07

gyr

-0.07

 supplémentaire

-0.07

 existente

-0.07

 Deposit

-0.07

 Vault

-0.07

POSITIVE LOGITS

 wholeheartedly

0.09

 hars

0.08

Ich

0.08

 footing

0.08

新的

0.08

 permanent

0.08

0.08

 Buddhism

0.08

 Richtung

0.08

 tactics

0.07

Activations Density 0.052%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact