Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

arguments and rebuttals

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

SIM

-0.08

-0.08

Nin

-0.08

 ndër

-0.07

lel

-0.07

 Extra

-0.07

GING

-0.07

Nim

-0.07

-extra

-0.07

签到

-0.07

POSITIVE LOGITS

因此

0.08

 עדיין

0.08

 Descriptor

0.08

 unaffected

0.08

_descriptor

0.08

 argues

0.08

 legitimately

0.08

 Bordeaux

0.08

idae

0.08

 stakeholders

0.07

Activations Density 0.124%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact