Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

beginnings

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 wake

-2.22

wake

-1.94

 awake

-1.90

 waking

-1.83

 wakes

-1.79

 awaken

-1.77

 woken

-1.73

 awakening

-1.65

 Wake

-1.59

 awakens

-1.59

POSITIVE LOGITS

0.66

in

0.52

to

0.52

id

0.51

di

0.50

0.48

0.48

 staff

0.48

di

0.48

 from

0.47

Activations Density 0.341%

No Known Activations

© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact