INDEX

Explanations

About art

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_23/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.23.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 modifiers

-0.06

.ne

-0.06

kho

-0.06

ектор

-0.06

gregator

-0.06

 modifier

-0.06

 suggesting

-0.06

 Machines

-0.05

्मन

-0.05

 пош

-0.05

POSITIVE LOGITS

allel

0.08

SEX

0.07

Ves

0.07

 چرا

0.07

 trilogy

0.07

 Unblock

0.06

 Granny

0.06

ueba

0.06

 Trilogy

0.06

.transactions

0.06

Activations Density 0.046%

About art

No Comments

No Known Activations

About art

No Comments

No Known Activations