INDEX

Explanations

into

np_max-act · gemini-2.0-flash

scenes involving inappropriate or suggestive interactions between characters.

oai_token-act-pair · gpt-4o-mini Triggered by @xinyanhu8

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_11/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.11.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Hills

-0.07

 //////////////////////////////////////////////////////////////////////////

-0.07

 Install

-0.07

_WINDOW

-0.06

 lambda

-0.06

 країни

-0.06

uct

-0.06

 Below

-0.06

uet

-0.06

Interaction

-0.06

POSITIVE LOGITS

赞

0.08

criminal

0.07

baj

0.07

Kaf

0.07

 ті

0.07

 tasarım

0.07

InstanceOf

0.06

virt

0.06

canf

0.06

CASCADE

0.06

Activations Density 0.031%

into

scenes involving inappropriate or suggestive interactions between characters.

No Comments

No Known Activations