INDEX

Explanations

categories of places/people

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_23/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.23.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 employees

-0.07

>t

-0.07

 astonished

-0.07

}.

-0.06

 creator

-0.06

 confirms

-0.06

 backstory

-0.06

 remember

-0.06

 crem

-0.06

 Dialogue

-0.06

POSITIVE LOGITS

-Aug

0.07

brıs

0.06

inci

0.06

.slug

0.06

chyb

0.06

Frameworks

0.06

ýn

0.06

 fisse

0.06

ceb

0.06

냐

0.06

Activations Density 0.074%

categories of places/people

No Comments

No Known Activations