© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact

Neuronpedia

Natural Language

NEW Assistant AxisNEW Circuit TracerUPDATESteer SAE Evals ExportsAPI Community Blog Privacy & Terms Contact

Home
Gemma-2-2B
0-CLT-HP
1985

INDEX

Explanations

impact

np_max-act · gemini-2.0-flash

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

No Configuration Found

Embeds

Show PlotsShow ExplanationShow ActivationsShow Test FieldShow SteerShow Link

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

impact

-2.17

 impact

-2.14

Impact

-1.97

 Impact

-1.89

 impacts

-1.69

 impacted

-1.68

 IMPACT

-1.66

 impacting

-1.63

IMPACT

-1.58

 impacto

-1.53

POSITIVE LOGITS

ting

0.52

ty

0.43

turi

0.43

teg

0.42

te

0.42

 hazard

0.42

ynthetic

0.41

alie

0.40

0.39

fra

0.39

Activations Density 0.365%

No Known Activations