Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Refusals and warnings

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 tevreden

-0.08

 некоторое

-0.08

때

-0.08

 modest

-0.07

 ocas

-0.07

 tweaking

-0.07

 some

-0.07

 немного

-0.07

 qualche

-0.07

али

-0.07

POSITIVE LOGITS

 গুরু

0.10

严重

0.09

unless

0.09

 unethical

0.09

 తీవ

0.09

 conseils

0.09

 قانونی

0.09

 ernstige

0.09

 discouraged

0.09

 advisable

0.09

Activations Density 0.060%

No Known Activations

© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact