Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

anyone/everyone

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 people

-1.28

people

-1.00

 everyone

-0.93

People

-0.90

everyone

-0.87

Efq

-0.86

 mensen

-0.83

 PEOPLE

-0.83

 anyone

-0.81

 People

-0.79

POSITIVE LOGITS

who

0.70

 involved

0.63

0.58

 whose

0.54

клопе

0.53

век

0.52

can

0.51

omon

0.49

</caption>

0.48

涯

0.48

Activations Density 0.054%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact