Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

requires complexity

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-27b-it/resid_post/layer_40_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

emptyDict

0.36

とおり

0.35

改良

0.35

能够在

0.35

สี

0.34

 ጥላ

0.34

💖

0.34

普遍

0.34

inales

0.33

不必

0.33

POSITIVE LOGITS

 requires

2.13

 Requires

1.97

requires

1.96

 require

1.95

Requires

1.91

 requiere

1.87

 требует

1.83

 wymaga

1.73

require

1.69

 requiring

1.68

Activations Density 0.109%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact