Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

uncertainty and continuation

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-27b-it/resid_post/layer_16_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 hatte

0.28

Mutable

0.24

vede

0.24

uk

0.22

Message

0.22

zieht

0.22

曌

0.21

at

0.21

mé

0.21

ův

0.21

POSITIVE LOGITS

전

0.27

음

0.25

به

0.25

기

0.25

대

0.25

0.24

개

0.24

子供

0.24

 организма

0.24

초

0.23

Activations Density 0.148%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact