INDEX

Explanations

interpersonal relationships and feelings

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-qwen2.5-7b-instruct/resid_post_layer_19/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.19.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ë

-0.07

 confront

-0.07

">

↵

-0.07

_partition

-0.07

 retreat

-0.07

_comparison

-0.07

 Tracks

-0.07

(proxy

-0.07

 Institution

-0.07

⇂

-0.07

POSITIVE LOGITS

Yao

0.08

Fl

0.07

plen

0.07

 çıkt

0.07

Ⰽ

0.07

Vote

0.07

icao

0.07

โป

0.07

位列

0.07

 Mines

0.06

Activations Density 0.324%

interpersonal relationships and feelings

No Comments

No Known Activations