Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Balance and support

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

က

-0.08

increment

-0.08

aseq

-0.08

_days

-0.07

isdigit

-0.07

ाप

-0.07

 grotes

-0.07

 nightmare

-0.07

過

-0.07

ား

-0.07

POSITIVE LOGITS

 safety

0.09

 стены

0.09

 arrested

0.08

 bunda

0.08

 tangan

0.08

 удалить

0.08

имо

0.08

 rail

0.08

 Veilig

0.08

idenav

0.08

Activations Density 0.007%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact