Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

sequence/adjacency

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 itſelf

-1.55

 myſelf

-1.54

NUMX

-1.51

$_"

-1.40

 himſelf

-1.38

DockStyle

-1.37

 themſelves

-1.36

 مشين

-1.34

 Forumite

-1.34

 ſtate

-1.34

POSITIVE LOGITS

0.94

is

0.93

and

0.89

to

0.87

0.87

0.82

or

0.82

0.81

in

0.78

0.74

Activations Density 0.038%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact