Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

decisions and actions

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Kerr

-0.07

 distress

-0.07

cro

-0.07

 Área

-0.07

spe

-0.07

 offene

-0.07

 वै

-0.07

Ush

-0.07

 humane

-0.07

 flour

-0.07

POSITIVE LOGITS

 وكيف

0.09

Aval

0.08

，以及

0.08

/generated

0.08

 والتي

0.08

/connect

0.08

 ਸੋ

0.08

nel

0.08

/look

0.08

เมื่อ

0.08

Activations Density 0.275%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact