Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Series 65 License

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-27b-pt-res/layer_22/width_131k

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Suerte

-1.15

 specifik

-1.14

Şi

-1.07

 насеље

-1.06

 kabát

-1.06

τής

-1.05

 سپس

-1.05

 fortsatt

-1.04

вший

-1.02

 technik

-1.01

POSITIVE LOGITS

 простой

0.98

 рекомендуется

0.96

并

0.94

0.93

Go

0.92

0.92

´

0.88

 aktivieren

0.86

em

0.85

0.85

Activations Density 0.056%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact