Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

actions

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Rad

-0.08

Ri

-0.08

рад

-0.08

RAD

-0.08

 Franchise

-0.08

наки

-0.07

Rad

-0.07

酒

-0.07

ückt

-0.07

ذكر

-0.07

POSITIVE LOGITS

 sırasında

0.11

 ʻana

0.10

Lan

0.09

 செய்யப்பட்ட

0.09

 നടത്തിയ

0.09

 edil

0.09

 yapan

0.08

 יח

0.08

 നടത്തി

0.08

 során

0.08

Activations Density 0.448%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact