Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

technical terms

np_max-act-logits · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-12b-pt/resid_post/layer_41_width_262k_l0_medium

Prompts (Dashboard)

392,802 prompts, 256 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

iranje

0.59

atten

0.58

 اختصاص

0.58

atien

0.58

intosh

0.57

沣

0.55

onneur

0.55

狛

0.55

incent

0.54

 Cate

0.53

POSITIVE LOGITS

sav

0.57

 unregulated

0.55

สอน

0.54

 nevo

0.54

 playas

0.52

бак

0.52

恸

0.52

 unlucky

0.51

 succeeded

0.50

ສົ

0.50

Activations Density 0.000%

No Known Activations

© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact