Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

development

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 максим

-0.07

\-

-0.07

 implication

-0.07

(Max

-0.07

”

-0.07

-max

-0.07

Maximum

-0.07

efore

-0.07

 maximale

-0.07

¾

-0.07

POSITIVE LOGITS

ാഷ്ട്ര

0.09

ാഷ്ട

0.09

klart

0.08

ේශ

0.08

KU

0.08

عديد

0.08

 ropa

0.08

ovski

0.08

 ചരിത്ര

0.08

 shumë

0.07

Activations Density 0.005%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact