Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

board game components

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 hello

-0.09

 metabolism

-0.08

aism

-0.08

望

-0.08

 Augustine

-0.07

怀

-0.07

 aprendizado

-0.07

哲

-0.07

继

-0.07

 contemplating

-0.07

POSITIVE LOGITS

رقام

0.09

 Labels

0.08

 terdiri

0.08

 nummers

0.08

 표시

0.08

 collectibles

0.08

 комплект

0.08

عداد

0.08

ilala

0.08

 خلکو

0.08

Activations Density 0.010%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact