INDEX

Explanations

No Explanations Found

New Auto-Interp

Configuration

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.23.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

agnostic

-0.07

 ************************************************

-0.07

 boldly

-0.07

美方

-0.07

unl

-0.07

ARB

-0.07

KR

-0.06

 wrapped

-0.06

 violate

-0.06

找不到

-0.06

POSITIVE LOGITS

athlete

0.08

奋斗

0.07

 increased

0.07

 increase

0.07

œur

0.06

“We

0.06

夥

0.06

 increases

0.06

\Queue

0.06

Activations Density 0.070%

No Known Activations