Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

words starting with A or P

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-27b-pt-res/layer_34/width_131k

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Dazu

-0.78

🏐

-0.77

ету

-0.74

дизайн

-0.73

 מט

-0.73

 SATA

-0.73

Folgende

-0.72

擂

-0.72

])[

-0.72

Nog

-0.71

POSITIVE LOGITS

君

0.72

 pickled

0.71

有没有

0.71

じゅう

0.71

兰

0.69

Vanjske

0.68

França

0.67

зма

0.67

 Smoky

0.67

砝

0.66

Activations Density 0.011%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact