Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

game theory/math

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

amer

-0.08

 axis

-0.08

axis

-0.08

Moc

-0.07

Issuer

-0.07

 oči

-0.07

amm

-0.07

apte

-0.07

 tanker

-0.07

.Row

-0.07

POSITIVE LOGITS

��

0.08

্দেশ

0.08

 Models

0.08

 Eval

0.08

 يونيو

0.08

0.08

јед

0.08

-ħ

0.08

------------------------------------------------------------------------

0.08

 pogosto

0.08

Activations Density 0.011%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact