INDEX

Explanations

word descriptions/quotes

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_19/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.19.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

pond

-0.07

 recruits

-0.06

 lugar

-0.06

 raided

-0.06

 kariy

-0.06

 estado

-0.06

 como

-0.06

 mocked

-0.06

var

-0.06

 phụ

-0.06

POSITIVE LOGITS

.User

0.07

 пож

0.07

;↵↵↵↵↵

0.06

 جزئ

0.06

 Friend

0.06

Classification

0.06

 Pascal

0.06

摄

0.06

ßen

0.06

Activations Density 0.035%

word descriptions/quotes

No Comments

No Known Activations

word descriptions/quotes

No Comments

No Known Activations