Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

word counts or lengths

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-27b-it/resid_post/layer_31_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 ثاني

0.46

 Steve

0.42

 Goll

0.42

 Rebecca

0.42

Zal

0.42

CIS

0.41

 リュ

0.41

Steve

0.41

➋

0.40

 Janssen

0.40

POSITIVE LOGITS

 aldrig

0.40

 זה

0.40

աք

0.39

 cyclase

0.39

 Keywords

0.38

 mentality

0.37

্ষিকী

0.37

 slav

0.36

قول

0.36

本書

0.36

Activations Density 0.000%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact