INDEX

Explanations

astonishment and surprise

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

'];

0.72

CLUSTERED

0.68

耷

0.67

 coval

0.62

Anyway

0.60

 기울

0.60

旮

0.59

깃

0.59

每

0.59

댔

0.58

POSITIVE LOGITS

 surprise

4.64

 surprised

4.62

 surprises

4.20

 surprising

4.13

 shocked

4.03

 shock

3.84

surprise

3.82

 Surprise

3.75

 sorpresa

3.59

 astonishment

3.59

Activations Density 0.942%