INDEX

Explanations

Research papers/articles/books

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_27/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.27.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

。お

-0.07

 abruptly

-0.07

 professionalism

-0.06

blind

-0.06

.Sound

-0.06

 اهم

-0.06

 Royal

-0.06

ikal

-0.06

Coins

-0.06

Transactional

-0.06

POSITIVE LOGITS

 getDate

0.07

 manner

0.06

	BYTE

0.06

WE

0.06

віт

0.06

acas

0.06

 onclick

0.06

 gast

0.06

 BUTTON

0.06

 anthology

0.06

Activations Density 0.009%

Research papers/articles/books

No Comments

No Known Activations