INDEX

Explanations

surprising and unexpected

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ançaise

0.37

rsfs

0.36

 কামনা

0.34

uerite

0.34

Dv

0.34

佞

0.34

 الو

0.33

 ناقص

0.33

戊

0.33

ahlt

0.33

POSITIVE LOGITS

 surprising

3.75

 surprise

3.63

 surprised

3.59

 überras

3.47

 surprises

3.38

 sorprend

3.25

 surpr

3.14

 sorpresa

3.13

 unexpected

3.11

surprise

3.08

Activations Density 0.164%