Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

itarian

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 dotycz

-0.08

Vr

-0.08

mpr

-0.08

 zach

-0.08

 dokon

-0.07

 ligament

-0.07

 Ryan

-0.07

房

-0.07

.decode

-0.07

 jogging

-0.07

POSITIVE LOGITS

 tendencies

0.09

 oppressive

0.09

verde

0.08

 authoritarian

0.08

 posture

0.08

ತ್ತು

0.08

 tolerated

0.08

 rikt

0.08

 режима

0.08

政

0.08

Activations Density 0.010%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact