INDEX

Explanations

contextual words and pronouns mixed with random nouns

oai_token-act-pair · gemini-2.0-flash

won/wouldn't/wont

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

google/gemma-scope-2b-pt-transcoders/layer_22/width_16k/average_l0_15

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Features

16,384

Data Type

float32

Hook Name

blocks.22.ln2.hook_normalized

Architecture

jumprelu_transcoder

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

setVerticalGroup

-0.76

BeginInit

-0.69

NameInMap

-0.61

ContentAsync

-0.60

الإنجليزية

-0.59

WriteBarrier

-0.53

DockStyle

-0.53

[*]

-0.51

providedIn

-0.50

 AssemblyProduct

-0.49

POSITIVE LOGITS

won

2.09

Won

1.93

won

1.85

Won

1.84

 wouldn

1.78

WON

1.73

 wont

1.70

wouldn

1.60

WON

1.46

 Wouldn

1.45

Activations Density 2.331%

contextual words and pronouns mixed with random nouns

won/wouldn't/wont

No Comments

No Known Activations

contextual words and pronouns mixed with random nouns

won/wouldn't/wont

No Comments

No Known Activations