INDEX

Explanations

leading

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

mwhanna/qwen3-4b-transcoders/layer_11.safetensors

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Features

163,840

Data Type

float32

Hook Name

blocks.11.mlp.hook_in

Architecture

transcoder

Context Size

8,192

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 monitors

-0.26

SAFE

-0.26

 harb

-0.25

soon

-0.25

Monitor

-0.25

 Monitor

-0.24

 himself

-0.24

ä¸ĩåħ¬éĩĮ

-0.23

 Prem

-0.23

-options

-0.23

POSITIVE LOGITS

ering

0.31

åĹŁ

0.28

åı£

0.28

itudes

0.27

ifies

0.25

è¯įæĿ¡

0.25

æĮ¤

0.25

Sk

0.24

æ¡ĳ

0.24

eria

0.24

Activations Density 0.004%

leading

No Comments

No Known Activations