Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

as it returns

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-27b-pt-res/layer_22/width_131k

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

in

-1.87

now

-1.78

 then

-1.74

 will

-1.71

 often

-1.70

 like

-1.69

 when

-1.68

 only

-1.62

or

-1.57

can

-1.43

POSITIVE LOGITS

 fleurs

1.53

 нынеш

1.51

 Jest

1.48

妩

1.47

 jogadores

1.45

 beaucoup

1.42

 THOMAS

1.41

acknowled

1.38

tualmente

1.35

𓆏

1.35

Activations Density 0.088%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact