Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

sqrt

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 ಕ್ರಮ

-0.09

ungkinan

-0.09

trau

-0.08

ตอน

-0.08

 அதிகார

-0.08

 имущество

-0.08

igheter

-0.08

ოების

-0.08

 ordenar

-0.08

 прибыль

-0.08

POSITIVE LOGITS

 elev

0.08

 moder

0.07

 casin

0.07

 noct

0.07

 immed

0.07

 soaring

0.07

sij

0.07

ccess

0.07

 nær

0.07

 chalet

0.07

Activations Density 0.011%

No Known Activations

© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact