Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

之 + noun

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-4b-it/resid_post/layer_9_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

li

2.89

৫

2.71

க்

2.64

 applaud

2.63

ле

2.57

ها

2.51

ことになる

2.51

ซ์

2.46

こと

2.42

 jsonify

2.41

POSITIVE LOGITS

巅

2.99

нный

2.86

類的

2.72

aar

2.57

সাথে

2.46

нных

2.34

𝘂

2.27

ный

2.17

یه

2.16

нная

2.16

Activations Density 0.004%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact