Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

the

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

-support

-0.09

 condições

-0.08

 affirmed

-0.08

-extension

-0.07

-conditioned

-0.07

-condition

-0.07

 Joining

-0.07

-cur

-0.07

-init

-0.07

 espal

-0.07

POSITIVE LOGITS

实际上

0.10

 swapped

0.10

mis

0.09

 misl

0.09

 guise

0.09

 swapping

0.09

retro

0.09

.swap

0.09

 entsprechen

0.09

 swaps

0.09

Activations Density 0.039%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact