INDEX

Explanations

Dim

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_23/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.23.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Goldman

-0.06

 Brigham

-0.06

addtogroup

-0.06

?;↵↵

-0.06

 parece

-0.06

 behaved

-0.06

_purchase

-0.06

 selling

-0.06

 hablar

-0.06

 protesting

-0.06

POSITIVE LOGITS

_MR

0.07

 Москов

0.07

blk

0.07

ozor

0.07

acím

0.07

 Heater

0.06

utc

0.06

 характ

0.06

paint

0.06

_gap

0.06

Activations Density 0.007%

Dim

No Comments

No Known Activations