Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

symptoms-causes/

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-1b-pt/resid_post/layer_13_width_16k_l0_medium

Prompts (Dashboard)

392,802 prompts, 256 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

inst

1.17

install

1.15

trim

1.15

ust

1.14

your

1.12

flag

1.11

li

1.10

btn

1.10

bris

1.09

↵

1.09

POSITIVE LOGITS

 seconda

1.51

 segunda

1.47

 violência

1.45

 εξε

1.44

 ώστε

1.43

 αφού

1.42

 avendo

1.42

 pemberian

1.42

 causando

1.42

 procurando

1.41

Activations Density 0.001%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact