INDEX

Explanations

Negative sentiment, conflict

np_max-act · gemini-2.0-flash

The neuron responds to words signaling backlash, conflict, or public outrage (e.g. “ire,” “uproar,” “violent reprisal”).

oai_token-act-pair · o4-mini Triggered by @xinyanhu8

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_11/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.11.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

PlotsExplanationShow Test FieldDefault Test Text

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

巧

-0.07

 Jensen

-0.06

Veter

-0.06

 Kansas

-0.06

Heading

-0.06

anness

-0.06

 chimpan

-0.06

Behavior

-0.06

Fra

-0.06

>"+

-0.06

POSITIVE LOGITS

 güncel

0.07

۱۸

0.07

_specific

0.06

onya

0.06

프로

0.06

esinde

0.06

 μικ

0.06

 způsobem

0.06

 intoxic

0.06

 düş

0.06

Activations Density 0.060%

Negative sentiment, conflict

The neuron responds to words signaling backlash, conflict, or public outrage (e.g. “ire,” “uproar,” “violent reprisal”).

No Comments

No Known Activations