INDEX

Explanations

Reporting information

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_23/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.23.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

�

-0.08

Sampling

-0.07

rape

-0.06

 поддерж

-0.06

 singing

-0.06

 товар

-0.06

pecting

-0.06

戲

-0.06

 patents

-0.06

phants

-0.06

POSITIVE LOGITS

sch

0.06

()?.

0.06

]."

0.06

TP

0.06

.'.

0.06

")))↵

0.06

्शन

0.06

>');↵

0.06

Attribute

0.06

.");

0.06

Activations Density 0.005%

Reporting information

No Comments

No Known Activations