INDEX

Explanations

surprise and unexpected events

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

'];

0.92

"];

0.69

']);

0.65

-]+

0.64

'].

0.64

];

0.62

</h5>

0.62

()];

0.60

']

0.60



0.60

POSITIVE LOGITS

 surprise

5.25

 surprised

5.01

 surprising

4.90

 surprises

4.84

surprise

4.32

 sorpresa

4.19

 surpr

4.11

 Surprise

4.10

 unexpected

4.10

 surpre

4.03

Activations Density 0.463%