INDEX

Explanations

scientific/technical texts

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_27/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.27.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

_uart

-0.07

 mailed

-0.07

 races

-0.07

 inspired

-0.07

if

-0.07

 damaged

-0.07

(args

-0.06

 Diseases

-0.06

 gamb

-0.06

break

-0.06

POSITIVE LOGITS

 Českosloven

0.07

 dimensional

0.06

ب

0.06

TIME

0.06

ABS

0.06

querySelector

0.06

 дальней

0.06

eid

0.06

 Dirk

0.06

 Rihanna

0.06

Activations Density 0.091%

scientific/technical texts

No Comments

No Known Activations

scientific/technical texts

No Comments

No Known Activations