Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

names meanings

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-1b-pt/resid_post/layer_13_width_16k_l0_medium

Prompts (Dashboard)

392,802 prompts, 256 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits



1.10

irlas

1.05

あるいは

1.04

 communaut

1.01

].)

1.00

generally

0.97

Goss

0.97

 respective

0.96



0.94

cumulative

0.93

POSITIVE LOGITS

 قدم

1.37

怪

1.37

망

1.30

ೈನ್

1.25

太

1.24

멋

1.18

푸

1.17

 ભગવાન

1.15

빛

1.14

 невероят

1.13

Activations Density 0.037%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact