Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

.print

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

raphic

-0.08

rschein

-0.08

 Angelina

-0.08

Essay

-0.08

graphic

-0.08

 hardened

-0.08

 Myrtle

-0.08

hir

-0.07

 preached

-0.07

romycin

-0.07

POSITIVE LOGITS

 بابت

0.08

 adaptability

0.07

sɛ

0.07

SBM

0.07

 कार्रवाई

0.07

 archives

0.07

१०

0.07

 lako

0.07

 sanity

0.07

otsi

0.07

Activations Density 0.001%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact