Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Bach

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Hazard

-1.34

Hazard

-1.23

 hazard

-1.19

hazard

-1.18

buck

-1.08

 HAZARD

-1.04

 buck

-0.90

HAZ

-0.87

 hazards

-0.84

 Hazards

-0.81

POSITIVE LOGITS

TypedDataSet

0.57

0.50

ary

0.47

soft

0.47

le

0.46

0.46

sl

0.45

spy

0.45

 gepubliceerd

0.45

let

0.45

Activations Density 0.014%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact