Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

User interface elements

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

标

-0.08

计

-0.07

AKA

-0.07

 انقلاب

-0.07

RNA

-0.07

 hallmark

-0.07

 Republicans

-0.07

 housing

-0.07

 relatives

-0.07

-0.07

POSITIVE LOGITS

 Sympathy

0.09

ப்படுகிறது

0.09

Ignoring

0.08

되는

0.08

 ignore

0.08

 ignor

0.08

丘

0.08

 내가

0.08

gifter

0.08

 ignoring

0.07

Activations Density 0.000%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact