INDEX

Explanations

Philippines government

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_27/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.27.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 warto

-0.07

 swapping

-0.07

 Hugo

-0.06

riend

-0.06

-mark

-0.06

cos

-0.06

 Assumes

-0.06

 ROOM

-0.06

islav

-0.06

cargo

-0.06

POSITIVE LOGITS

 Streets

0.07

@Setter

0.07

 Railroad

0.06

itní

0.06

ChildIndex

0.06

 queryInterface

0.06

 modificar

0.06

 Broadway

0.06

ΕΧ

0.06

 العربية

0.06

Activations Density 0.007%

Philippines government

No Comments

No Known Activations

Philippines government

No Comments

No Known Activations