INDEX

Explanations

release

np_max-act · gemini-2.0-flash

The neuron fires on legal “release” terminology—words like release, releases, discharges, and related settlement‐agreement language.

oai_token-act-pair · o4-mini Triggered by @xinyanhu8

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_11/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.11.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

plode

-0.06

 counterfeit

-0.06

-esteem

-0.06

igate

-0.06

KeyPressed

-0.06

 effort

-0.06

Her

-0.06

 hammer

-0.06

Tuesday

-0.06

 Moodle

-0.06

POSITIVE LOGITS

디시

0.07

ือก

0.07

hes

0.07

┃

0.07

Ran

0.06

ιαν

0.06

 suspension

0.06

 actions

0.06

_delivery

0.06

üş

0.06

Activations Density 0.003%

release

The neuron fires on legal “release” terminology—words like release, releases, discharges, and related settlement‐agreement language.

No Comments

No Known Activations