Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

irrational number approximations

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 complejo

-0.09

 geothermal

-0.08

 complexo

-0.08

_sal

-0.08

 workloads

-0.08

 Promo

-0.08

otores

-0.08

 пля

-0.07

 complex

-0.07

 sticker

-0.07

POSITIVE LOGITS

 지도

0.08

 discre

0.08

 محسوس

0.08

δ

0.08

 수준

0.08

(delta

0.08

idak

0.08

arlu

0.08

 magari

0.08

 perturb

0.07

Activations Density 0.012%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact