INDEX

Explanations

movies and acting

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_27/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.27.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

(grammarAccess

-0.08

 crane

-0.06

 Guidance

-0.06

 Lewis

-0.06

_clients

-0.06

Dark

-0.06

 подс

-0.06

，现在

-0.06

chk

-0.06

 Alice

-0.06

POSITIVE LOGITS

-ind

0.07

 Comprehensive

0.06

責

0.06

 deser

0.06

 cardio

0.06

reach

0.06

mue

0.06

MON

0.06

 ranged

0.06

 AssemblyTitle

0.06

Activations Density 0.006%

movies and acting

No Comments

No Known Activations

movies and acting

No Comments

No Known Activations