INDEX

Explanations

surprise

np_max-act · gemini-2.0-flash

The neuron flags placeholder character‐name tokens (e.g. “NAME_1”, “NAME_2”, etc.).

oai_token-act-pair · o4-mini Triggered by @xinyanhu8

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_11/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.11.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

committed

-0.08

Thing

-0.08

ूक

-0.07

ัต

-0.07

username

-0.07

rapid

-0.07

 setUsername

-0.07

vari

-0.07

唯一

-0.06

POSITIVE LOGITS

 страх

0.07

hä

0.06

 zách

0.06

 etwa

0.06

 toprak

0.06

 walmart

0.06

 familial

0.06

dhe

0.06

 Lennon

0.06

Activations Density 0.018%

surprise

The neuron flags placeholder character‐name tokens (e.g. “NAME_1”, “NAME_2”, etc.).

No Comments

No Known Activations

surprise

The neuron flags placeholder character‐name tokens (e.g. “NAME_1”, “NAME_2”, etc.).

No Comments

No Known Activations