Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

two-dimensional

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-27b-it/resid_post/layer_40_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 ато

0.44

 سور

0.40

單

0.39

 jednot

0.38

单

0.38

entin

0.37

എ

0.37

inoa

0.37

ონის

0.37

孤

0.37

POSITIVE LOGITS

 dimensional

0.85

dimensional

0.81

Dimensional

0.80

 Dimensional

0.69

imensional

0.63

Way

0.62

 sided

0.60

way

0.58

way

0.58

Way

0.56

Activations Density 0.014%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact