Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

provide

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Noch

-0.08

 noch

-0.08

NLP

-0.08

 пул

-0.08

ಾತ್ರ

-0.07

াত্ৰ

-0.07

.TR

-0.07

 jeszcze

-0.07

 verification

-0.07

 astronauts

-0.07

POSITIVE LOGITS

 안내

0.10

 segala

0.08

 તમને

0.08

ඒ

0.08

 دیا

0.08

 दिए

0.08

 fearless

0.08

 आपको

0.08

 വിവര

0.08

 വിശദ

0.08

Activations Density 0.007%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact