INDEX

Explanations

backslash followed by character

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-qwen2.5-7b-instruct/resid_post_layer_19/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.19.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

.=

-0.08

起身

-0.07

ifying

-0.07

etch

-0.07

意思是

-0.07

抖音

-0.07

ลงทะเบ

-0.07

.prepare

-0.07

🌺

-0.07

牺

-0.07

POSITIVE LOGITS

 subsidies

0.07

 онлайн

0.06

 OVER

0.06

 utilization

0.06

 لي

0.06

 yönet

0.06

赒

0.06

鄰

0.06

Parent

0.06

ڡ

0.06

Activations Density 0.004%

backslash followed by character

No Comments

No Known Activations

backslash followed by character

No Comments

No Known Activations