Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

employment

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ⓧ

-0.80

ResponseWriter

-0.77

Хьажоргаш

-0.76

]--;

-0.75

 myſelf

-0.75

 Reſ

-0.71

 iſt

-0.71

 reaſon

-0.69

Diwedd

-0.69

 ſtate

-0.69

POSITIVE LOGITS

of

0.93

 concernés

0.66

0.57

0.57

 bonheur

0.55

 from

0.53

 fratelli

0.52

<h5>

0.52

to

0.51

for

0.51

Activations Density 0.802%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact