Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Generalizing actions of a few

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 fija

-0.09

aben

-0.08

 ventaja

-0.08

legenheit

-0.08

 گی

-0.07

Una

-0.07

omod

-0.07

 Root

-0.07

 Parliamentary

-0.07

 usability

-0.07

POSITIVE LOGITS

 extremists

0.10

'];
↵

0.09

 terceiros

0.09

 extremist

0.09

'])->

0.09

'];
↵
↵

0.08

 individus

0.08

']?>"

0.08

']);

0.08

 mauvais

0.08

Activations Density 0.067%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact