INDEX

Explanations

expressing confidence

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-qwen2.5-7b-instruct/resid_post_layer_19/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.19.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

🅐

-0.07

-->

-0.07

еньк

-0.07

传真

-0.07

📎

-0.07

 spree

-0.06

🅚

-0.06

-packages

-0.06

 takeover

-0.06

oundary

-0.06

POSITIVE LOGITS

 motorcycles

0.07

omite

0.07

 solids

0.07

 randomized

0.07

 alloy

0.07

 commodo

0.07

 permitted

0.07

ders

0.07

kg

0.07

ISING

0.06

Activations Density 0.045%

expressing confidence

No Comments

No Known Activations

expressing confidence

No Comments

No Known Activations