Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

break or pause

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-4b-it/resid_post/layer_22_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 เร

0.69

 elegantes

0.60

 शुल्क

0.60

ཏ

0.60

 अकेले

0.58

 سیک

0.58

elolaan

0.58

氐

0.57

เร

0.56

雛

0.56

POSITIVE LOGITS

 break

3.95

 breaks

3.62

break

3.54

 Break

3.41

Break

3.19

 Breaks

3.05

breaks

2.86

 BREAK

2.75

 ब्रेक

2.49

 breaking

2.34

Activations Density 0.143%

No Known Activations

© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact