INDEX

Explanations

content related to reading reviews

oai_token-act-pair · gemini-2.0-flash

requests to read reviews

np_token-act-pair-logits · gpt-4o-mini

Read

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

google/gemma-scope-2b-pt-transcoders/layer_21/width_16k/average_l0_13

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Features

16,384

Data Type

float32

Hook Name

blocks.21.ln2.hook_normalized

Architecture

jumprelu_transcoder

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 CreateTagHelper

-0.81

RetentionPolicy

-0.72

 通販

-0.70

ècie

-0.69

inaison

-0.68

AndEndTag

-0.68

 myſelf

-0.68

 Normdatei

-0.65

 Anſ

-0.64

 незавершена

-0.64

POSITIVE LOGITS

 more

0.81

 More

0.71

more

0.69

More

0.59

 MORE

0.51

 Lebih

0.51

 lebih

0.51

 mehr

0.50

UNTAIN

0.50

 hơn

0.49

Activations Density 0.955%

content related to reading reviews

requests to read reviews

Read

No Comments

No Known Activations

content related to reading reviews

requests to read reviews

Read

No Comments

No Known Activations