Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

how it works

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-4b-it/resid_post/layer_9_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 astray

1.40

д

1.35

 perfeito

1.28

 સ્વા

1.27

 dotyczą

1.26

 produz

1.23

 mikä

1.20

 потрібно

1.18

gesch

1.17

 परिचय

1.15

POSITIVE LOGITS

اً

1.17

ло

1.14

र

1.14

渟

1.14

ով

1.14

𝗸

1.09

 vinegar

1.08

靂

1.07

ervation

1.05

ي

1.04

Activations Density 0.262%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact