INDEX

Explanations

mainly/primarily

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-qwen2.5-7b-instruct/resid_post_layer_19/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.19.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

me

-0.07

 gratuit

-0.07

Wildcard

-0.07

England

-0.07

ucher

-0.07

 canada

-0.07

 Donovan

-0.07

 Fran

-0.07

Buscar

-0.07

劳动者

-0.07

POSITIVE LOGITS

 quieter

0.08

חודש

0.07

 mixing

0.06

 southwest

0.06

空军

0.06

 centre

0.06

 northwest

0.06

 statewide

0.06

⬜

0.06

.flow

0.06

Activations Density 0.004%

mainly/primarily

No Comments

No Known Activations

mainly/primarily

No Comments

No Known Activations