Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

symmetry

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 firm's

-0.08

फ

-0.08

 surcharge

-0.08

शी

-0.08

 overseas

-0.07

 breakup

-0.07

 family's

-0.07

 कंट

-0.07

 घट

-0.07

 anger

-0.07

POSITIVE LOGITS

roles

0.12

 roles

0.12

 symmetry

0.11

 symmetric

0.10

 Rollen

0.10

 symmetrical

0.10

_roles

0.09

 Roles

0.09

 swapped

0.09

Roles

0.09

Activations Density 0.021%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact