INDEX

Explanations

words related to the legal system, experiments, politeness and being on time.

oai_token-act-pair · gemini-2.0-flash

rare words

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

google/gemma-scope-2b-pt-transcoders/layer_25/width_16k/average_l0_41

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Features

16,384

Data Type

float32

Hook Name

blocks.25.ln2.hook_normalized

Architecture

jumprelu_transcoder

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 even

-4.13

even

-3.81

Even

-3.47

 Even

-3.44

 EVEN

-3.31

EVEN

-2.92

 даже

-2.92

 навіть

-2.86

 incluso

-2.78

 حتی

-2.61

POSITIVE LOGITS

mergeFrom

0.57

mbggenerated

0.57

而已

0.57

 distanciation

0.55

styleType

0.54

 oprot

0.54

 незавершена

0.54

ImageContext

0.54

Билгалдахарш

0.53

parsedMessage

0.53

Activations Density 8.904%

words related to the legal system, experiments, politeness and being on time.

rare words

No Comments

No Known Activations