INDEX

Explanations

AC.2K or AC9M5N

np_acts-logits-general · gemini-2.5-flash-lite

Tokens that are part of the model/assistant's generated reply (i.e., model-produced content).

oai_token-act-pair · gpt-5-mini Triggered by @vetterc0

This neuron activates strongly on assistant/model-produced turn starts and system/response tokens (i.e., tokens that begin or mark model-generated replies, headings, or formatted response content).

oai_token-act-pair · gpt-5-mini Triggered by @vetterc0

New Auto-Interp

Configuration

google/gemma-scope-2-27b-it/resid_post/layer_40_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

...”

0.32

🉑

0.30

 connexes

0.29

icoli

0.29

dbl

0.29

 创建

0.28

🆕

0.28

 继续访问

0.27

כּ

0.27

 vollständ

0.27

POSITIVE LOGITS

 препарата

0.28

Interestingly

0.25

личие

0.25

While

0.24

 مطلب

0.24

 поводу

0.24

cag

0.24

śc

0.24

жны

0.23

还好

0.23

Activations Density 0.624%

AC.2K or AC9M5N

Tokens that are part of the model/assistant's generated reply (i.e., model-produced content).

This neuron activates strongly on assistant/model-produced turn starts and system/response tokens (i.e., tokens that begin or mark model-generated replies, headings, or formatted response content).

No Comments

No Known Activations

AC.2K or AC9M5N

Tokens that are part of the model/assistant's generated reply (i.e., model-produced content).

This neuron activates strongly on assistant/model-produced turn starts and system/response tokens (i.e., tokens that begin or mark model-generated replies, headings, or formatted response content).

No Comments

No Known Activations