Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

中文内容和信息

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-27b-it/resid_post/layer_53_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

那我們

0.46

有一個

0.45

他說

0.45

䳕

0.44

張

0.44

劉

0.44

 اين

0.41

請問

0.41

 акчага

0.41

ныгы

0.41

POSITIVE LOGITS

的

0.70

，

0.65

和

0.60

及

0.57

或

0.57

以及

0.56

与

0.54

等

0.52

并

0.52

信息

0.51

Activations Density 0.124%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact