Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Destruction

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

बाट

-0.08

ब

-0.08

 खर्च

-0.08

 Obrig

-0.08

 enthusiastic

-0.08

र्प

-0.08

 क्लब

-0.08

♂

-0.07

 Barbara

-0.07

arden

-0.07

POSITIVE LOGITS

 rumored

0.09

 fake

0.09

fake

0.08

 breakthroughs

0.08

 inexist

0.08

vier

0.08

 imaginary

0.08

 breakthrough

0.07

_fake

0.07

Fake

0.07

Activations Density 0.001%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact