INDEX

Explanations

Food

np_max-act · gemini-2.0-flash

This neuron activates on coarse insults or profanities.

oai_token-act-pair · o4-mini Triggered by @xinyanhu8

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_11/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.11.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

-find

-0.07

 họp

-0.06

_sm

-0.06

 moeten

-0.06

irm

-0.06

 pharmacist

-0.06

.cart

-0.06

 elderly

-0.06

awl

-0.06

 subtraction

-0.06

POSITIVE LOGITS

centage

0.06

κα

0.06

 penetrate

0.06

 çift

0.06

테

0.06

sock

0.06

 يا

0.06

mmas

0.06

 konuda

0.06

ouple

0.06

Activations Density 0.005%

Food

This neuron activates on coarse insults or profanities.

No Comments

No Known Activations

Food

This neuron activates on coarse insults or profanities.

No Comments

No Known Activations