Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

cities and countries

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-27b-it/resid_post/layer_31_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

煐

0.36

颛

0.34

驷

0.32

ของการ

0.31

 변화

0.30

 반복

0.30

 효과

0.30

ᕇ

0.29

强调

0.29

 అధికారు

0.29

POSITIVE LOGITS

 cities

0.56

 cidades

0.56

 مدينة

0.56

 cidade

0.53

 London

0.52

 città

0.49

مدينة

0.49

 ciudades

0.49

 ciudad

0.48

 miasta

0.47

Activations Density 0.070%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact