INDEX

Explanations

research papers

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ç¡ķå£«çłĶç©¶

-0.35

(~(

-0.31

æĭľå¸ĪåŃ¦

-0.30

åİĨåı²æĸ°

-0.26

 }?>↵

-0.23

èĴŁ

-0.23

 TÃ¼m

-0.22

 (*((

-0.22

 Leban

-0.22

¡´

-0.22

POSITIVE LOGITS

 papers

0.30

 work

0.30

 paper

0.29

 Paper

0.24

 applications

0.23

 NgÃ´

0.23

 extensions

0.23

 worked

0.22

 motivated

0.22

ThanOr

0.22

Activations Density 1.123%