Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

NP complexity problems

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-4b-it/resid_post/layer_9_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

en

1.51

%.

1.45

ostics

1.44

 epsilon

1.41

 unsound

1.40

 astute

1.40

体积

1.38

㎥

1.38

 struts

1.35

'#'

1.35

POSITIVE LOGITS

д

1.88

்

1.72

ाइन

1.71

И

1.62

ب

1.46

л

1.43

্ব

1.41

 Mesmo

1.36

्सा

1.34

 siano

1.33

Activations Density 0.008%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact