INDEX

Explanations

is

np_max-act · gemini-2.0-flash

The neuron is sensitive to sentence-initial or clause-opening discourse markers and explanatory connectors (e.g. “It’s,” “While,” “This,” “how”).

oai_token-act-pair · o4-mini Triggered by @xinyanhu8

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_11/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.11.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

都会

-0.06

According

-0.06

Ф

-0.06

 thỏa

-0.06

 spills

-0.06

 طبی

-0.06

Fabric

-0.06

iding

-0.06

 Mediterr

-0.06

 примерно

-0.06

POSITIVE LOGITS

 crawl

0.07

akin

0.07

tu

0.06

StringEncoding

0.06

 characteristic

0.06

 aktif

0.06

/group

0.06

_gc

0.06

 contamination

0.06

 filenames

0.06

Activations Density 0.102%

is

The neuron is sensitive to sentence-initial or clause-opening discourse markers and explanatory connectors (e.g. “It’s,” “While,” “This,” “how”).

No Comments

No Known Activations