Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

No Explanations Found

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

-0.37

-0.36

-0.35

 generation

-0.34

 laboratories

-0.33

 pores

-0.33

 infringe

-0.33

 head

-0.32

Read

-0.32

 screen

-0.32

POSITIVE LOGITS

 ostavi

0.85

 transfieras

0.83

 Roskov

0.80

Personendaten

0.79

الحياه

0.78

 typelib

0.77

Geplaatst

0.76

abestanden

0.76

ⓧ

0.75

 >=",

0.74

Activations Density 0.006%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact