INDEX

Explanations

Setting, defining, dictating

np_max-act · gemini-2.0-flash

This neuron activates on words used in formal specification or instruction contexts—terms that define, dictate, or describe how something works.

oai_token-act-pair · o4-mini Triggered by @xinyanhu8

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_11/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.11.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

,address

-0.06

วด

-0.06

 Spirits

-0.06

UFF

-0.06

 hashtable

-0.06

SPAN

-0.06

_Entity

-0.06

Storage

-0.06

	total

-0.06

sharing

-0.06

POSITIVE LOGITS

 determining

0.07

 dictated

0.07

 determines

0.07

(',',

0.07

 dictate

0.07

 تعیین

0.07

 thích

0.07

 bestimm

0.07

 dictates

0.07

iddi

0.07

Activations Density 0.089%

Setting, defining, dictating

This neuron activates on words used in formal specification or instruction contexts—terms that define, dictate, or describe how something works.

No Comments

No Known Activations