Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

numbers and equations

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-27b-pt-res/layer_34/width_131k

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ͅ

-0.85

 Begin

-0.81

 Tiên

-0.80

שְׁ

-0.79

甲

-0.76

zło

-0.75

 Oats

-0.75

 Pozna

-0.75

स्ट

-0.75

 incorrect

-0.75

POSITIVE LOGITS

Questão

0.86

👷

0.77

 θα

0.71

 Dash

0.70

考えると

0.68

Gou

0.68

EDWARD

0.68

ilia

0.68

くださった

0.67

 these

0.67

Activations Density 0.029%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact