INDEX

Explanations

anti-discrimination/censorship

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-qwen2.5-7b-instruct/resid_post_layer_11/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.11.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 rash

-0.07

.Entity

-0.07

 Aussie

-0.06

某一

-0.06

闵

-0.06

こん

-0.06

黝

-0.06

ᄊ

-0.06

 zwykł

-0.06

.readFileSync

-0.06

POSITIVE LOGITS

GAP

0.07

	info

0.07

$count

0.07

_plate

0.07

lcd

0.07

aset

0.07

纱

0.07

 previews

0.07

po

0.06

acons

0.06

Activations Density 0.012%

anti-discrimination/censorship

No Comments

No Known Activations

anti-discrimination/censorship

No Comments

No Known Activations