Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

feudal

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 freeway

-0.09

 turquoise

-0.08

たい

-0.08

喜欢

-0.08

 truthful

-0.08

sew

-0.08

研

-0.07

Expo

-0.07

 width

-0.07

出来

-0.07

POSITIVE LOGITS

 deeds

0.10

 partnerships

0.09

 Partnerships

0.08

制度

0.08

 Cups

0.08

 doctrines

0.08

 обязанности

0.08

 Victorian

0.08

 relationships

0.08

 Soldiers

0.08

Activations Density 0.005%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact