INDEX

Explanations

social/political issues

np_max-act · gemini-2.0-flash

This neuron fires on mentions of organizations’ funding or support decisions tied to discrimination policies (e.g. withdrawing or withholding money because a group discriminates).

oai_token-act-pair · o4-mini Triggered by @xinyanhu8

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_11/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.11.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Result

-0.06

 path

-0.06

 year

-0.06

Tail

-0.06

真

-0.06

徐

-0.06

 Tail

-0.06

써

-0.06

，与

-0.06

 Tweets

-0.06

POSITIVE LOGITS

 Synopsis

0.06

charAt

0.06

 Trotsky

0.06

.setSize

0.06

 prostituer

0.06

-auth

0.06

 initial

0.06

+'.

0.06

 entfer

0.06

erset

0.06

Activations Density 0.040%

social/political issues

This neuron fires on mentions of organizations’ funding or support decisions tied to discrimination policies (e.g. withdrawing or withholding money because a group discriminates).

No Comments

No Known Activations