Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

user queries with specific instructions

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-27b-it/resid_post/layer_16_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 ક્

0.56

防控

0.53

 ಪು

0.52

 ပြော

0.50

ácie

0.49

 wijn

0.49

榞

0.49

 добра

0.48

 estudar

0.48

ordelen

0.48

POSITIVE LOGITS

ir

0.58

ע

0.47

 niche

0.45

Accounting

0.45

 exposure

0.44

 fetching

0.44

No

0.43

 entities

0.43

 expose

0.43

0.43

Activations Density 0.000%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact