Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

decision

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Sneakers

-0.08

प्त

-0.08

dating

-0.08

fees

-0.08

site

-0.08

aptured

-0.07

itr

-0.07

媽媽

-0.07

 Motorrad

-0.07

 gigant

-0.07

POSITIVE LOGITS

 actions

0.10

 decisions

0.10

 priorit

0.09

 consciously

0.09

 գործող

0.09

Align

0.09

行动

0.09

 діяль

0.08

 tindakan

0.08

 shaping

0.08

Activations Density 0.125%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact