INDEX

Explanations

words associated with someone being proud or arrogant

oai_token-act-pair · gemini-2.0-flash

Pride

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

google/gemma-scope-2b-pt-transcoders/layer_25/width_16k/average_l0_41

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Features

16,384

Data Type

float32

Hook Name

blocks.25.ln2.hook_normalized

Architecture

jumprelu_transcoder

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 pride

-2.31

 proud

-2.13

proud

-2.08

pride

-1.96

 Proud

-1.88

Proud

-1.87

Pride

-1.83

 Pride

-1.80

 proudly

-1.79

 orgullo

-1.66

POSITIVE LOGITS

Take

0.51

 Take

0.50

TAKE

0.48

ագրություններ

0.46

take

0.46

bula

0.44

 getLayout

0.43

TRX

0.43

 take

0.42

 Cereal

0.42

Activations Density 1.772%

words associated with someone being proud or arrogant

Pride

No Comments

No Known Activations

words associated with someone being proud or arrogant

Pride

No Comments

No Known Activations