Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

numbered lists

np_acts-logits-general · gemini-2.5-flash-lite

Naruto, Shippuden, Shonen Jump

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-27b-pt/resid_post/layer_16_width_16k_l0_medium

Prompts (Dashboard)

392,802 prompts, 256 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ون

0.41

et

0.38

ো

0.36

ップ

0.35

դ

0.34

υτό

0.34

鸫

0.34

ோருக்கு

0.33

ெற்ற

0.33

鸩

0.33

POSITIVE LOGITS

is

0.52

an

0.47

was

0.44

in

0.44

0.44

0.44

to

0.36

0.35

0.35

0.34

Activations Density 0.003%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact