INDEX

Explanations

highly charged disparaging political rhetoric

oai_token-act-pair · gemini-2.0-flash

political insults

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

google/gemma-scope-2b-pt-transcoders/layer_4/width_16k/average_l0_88

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Features

16,384

Data Type

float32

Hook Name

blocks.4.ln2.hook_normalized

Architecture

jumprelu_transcoder

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 estekak

-0.72

errHandler

-0.68

xtext

-0.59

entyfik

-0.58

 généraux

-0.57

rungsseite

-0.57

WritableDatabase

-0.56

tijds

-0.56

 élevées

-0.56

 Schuh

-0.54

POSITIVE LOGITS

 meek

0.65

 helpless

0.56

 propOrder

0.55

 pitt

0.51

 nerf

0.51

 submissive

0.49

TextAppearance

0.49

oprecip

0.48

wim

0.48

 cowards

0.48

Activations Density 0.886%

highly charged disparaging political rhetoric

political insults

No Comments

No Known Activations