Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

images

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

âg

-0.08

 musée

-0.08

ensively

-0.07

 klasik

-0.07

.firebaseio

-0.07

 ruthless

-0.07

 pagando

-0.07

 antique

-0.07

 teme

-0.07

 limestone

-0.07

POSITIVE LOGITS

无法

0.09

 തര

0.09

 cannot

0.09

 Cannot

0.09

GPT

0.09

 невозможно

0.09

 outputs

0.09

Cannot

0.08

生成

0.08

 can't

0.08

Activations Density 0.018%

No Known Activations

© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact