INDEX

Explanations

sentences expressing approval and positive sentiment, often using intensifiers and adverbs.

oai_token-act-pair · gemini-2.0-flash

does

np_max-act-logits · gemini-2.0-flash

say "degree/quality modifiers" Method used: 2 — tokens are degree/quality modifiers — say "degree/quality modifiers"

np_max-act-logits · gpt-5-mini Triggered by @chenshw0109

New Auto-Interp

Configuration

google/gemma-scope-2b-pt-transcoders/layer_25/width_16k/average_l0_41

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Features

16,384

Data Type

float32

Hook Name

blocks.25.ln2.hook_normalized

Architecture

jumprelu_transcoder

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 well

-1.71

Well

-1.66

 Well

-1.65

well

-1.59

 WELL

-1.38

WELL

-1.32

 bien

-1.29

wells

-0.98

 hyvin

-0.87

Bien

-0.84

POSITIVE LOGITS

jelen

0.54

 menac

0.53

gling

0.49

çons

0.47

mistry

0.46

 Marcelo

0.45

Сюжет

0.45

udios

0.45

gesterone

0.45

Activations Density 10.289%

sentences expressing approval and positive sentiment, often using intensifiers and adverbs.

does

say "degree/quality modifiers" Method used: 2 — tokens are degree/quality modifiers — say "degree/quality modifiers"

No Comments

No Known Activations

sentences expressing approval and positive sentiment, often using intensifiers and adverbs.

does

say "degree/quality modifiers" Method used: 2 — tokens are degree/quality modifiers — say "degree/quality modifiers"

No Comments

No Known Activations