Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

initiating an action

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-4b-it/resid_post/layer_22_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

を示す

0.62

appears

0.62

рім

0.60

új

0.57

appearing

0.57

पूर्वक

0.57

small

0.57

statusCode

0.57

 pequeños

0.56

ụ

0.56

POSITIVE LOGITS

MSI

0.71

不想

0.67

 worried

0.67

 dread

0.67

 اصلا

0.66

 obsessed

0.64

 Unity

0.64

 inició

0.63

 invested

0.63

 want

0.62

Activations Density 0.003%

No Known Activations

© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact