Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

replace

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Ry

-0.08

 Buffered

-0.08

 extend

-0.07

 vibe

-0.07

ль

-0.07

مش

-0.07

 Wind

-0.07

Finger

-0.07

nh

-0.07

Flower

-0.07

POSITIVE LOGITS

 substitutions

0.12

 substitution

0.11

 substitute

0.11

 sustit

0.11

 sustitu

0.10

 Substitute

0.10

 SUBSTITUTE

0.09

 substitutes

0.09

 substit

0.09

 đổi

0.09

Activations Density 0.007%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact