INDEX

Explanations

expressions indicating frustration and dissatisfaction

oai_token-act-pair · gpt-3.5-turbo Triggered by @bot

New Auto-Interp

Configuration

jbloom/Gemma-2b-IT-Residual-Stream-SAEs/gemma_2b_it_blocks.12.hook_resid_post_16384

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

HuggingFaceFW/fineweb

Features

16,384

Data Type

float32

Hook Name

blocks.12.hook_resid_post

Hook Layer

Architecture

standard

Context Size

1,024

Dataset

Skylion007/openwebtext

Activation Function

relu

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 makro

-0.86

 kask

-0.85

 karton

-0.81

 kade

-0.77

 silikon

-0.77

 kön

-0.74

 etui

-0.71

 elek

-0.71

 moza

-0.71

 alkoh

-0.71

POSITIVE LOGITS

 being

0.47

ABUL

0.45

 hearing

0.43

 dealing

0.43

 pretending

0.42

 blowing

0.42

 playing

0.42

 padx

0.42

 antimony

0.41

 chasing

0.41

Activations Density 0.157%

expressions indicating frustration and dissatisfaction

No Comments

No Known Activations

expressions indicating frustration and dissatisfaction

No Comments

No Known Activations