Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

academic publications

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 sedation

-0.10

colors

-0.08

 smiling

-0.08

 segmentation

-0.08

 backgrounds

-0.08

 lasers

-0.08

health

-0.08

 health

-0.08

 cosmetics

-0.07

 saúde

-0.07

POSITIVE LOGITS

 गृह

0.09

 literary

0.08

 tortor

0.08

季度

0.08

osp

0.08

偶

0.08

ырга

0.08

 débat

0.08

 неожидан

0.08

文学

0.08

Activations Density 0.006%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact