INDEX

Explanations

sections, articles, chapters

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 classification

-1.74

 Classification

-1.59

classification

-1.53

Classification

-1.39

 CLASSIFICATION

-1.37

 classifications

-1.12

 categorization

-1.10

 classificação

-1.08

 classifying

-1.05

 clasificación

-1.03

POSITIVE LOGITS

of

0.79

was

0.52

for

0.52

0.50

 from

0.50

is

0.49

the

0.49

to

0.48

 head

0.48

0.47

Activations Density 1.598%