Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

user

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Junction

-0.09

 Staffing

-0.08

 revisions

-0.08

gestelde

-0.08

 Sympathy

-0.08

<button

-0.08

 colossal

-0.08

 mouths

-0.08

 jaws

-0.08

Synopsis

-0.08

POSITIVE LOGITS

~/.

0.14

 personal

0.12

个人

0.11

 pessoais

0.11

 personnelles

0.11

 개인

0.11

 individual's

0.11

HOME

0.10

 HOME

0.10

(usuario

0.10

Activations Density 0.008%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact