INDEX

Explanations

Science fiction characters

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_23/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.23.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 시스템

-0.07

 seeding

-0.07

-med

-0.07

 multicultural

-0.07

adio

-0.07

_inode

-0.06

 good

-0.06

ifferential

-0.06

_activity

-0.06

_lab

-0.06

POSITIVE LOGITS

 protester

0.07

페이지

0.07

[++

0.07

resizing

0.06

 Tells

0.06

.tooltip

0.06

 зроб

0.06

.likes

0.06

.Contracts

0.06

 Resorts

0.06

Activations Density 0.010%

Science fiction characters

No Comments

No Known Activations