INDEX

Explanations

expressions of surprise and evaluation of experiences

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

cerebras/SlimPajama-627B

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 unfortunately

-0.07

 Horton

-0.07

 Brill

-0.07

 understandably

-0.06

Unfortunately

-0.06

 Unfortunately

-0.06

odo

-0.06

mast

-0.06

ãģ¾ãģł

-0.06

redo

-0.06

POSITIVE LOGITS

 surprise

0.15

 surprising

0.13

 surprises

0.13

 surprisingly

0.13

 Surprise

0.13

unexpected

0.12

 unexpected

0.12

 surpr

0.11

 unexpectedly

0.11

 surprised

0.11

Activations Density 0.032%