Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

ball

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 culminating

-0.08

anten

-0.07

 Lizenz

-0.07

 общий

-0.07

 montage

-0.07

 coveted

-0.07

 Titles

-0.07

 expressions

-0.07

 mall

-0.07

 women

-0.07

POSITIVE LOGITS

走势

0.09

 Είναι

0.08

κολ

0.08

Һ

0.08

ানের

0.08

animate

0.08

Segoe

0.08

 болду

0.08

 Бі

0.08

ীর

0.07

Activations Density 0.004%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact