INDEX

Explanations

contempt, disdain, scorn, despising

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 марке

0.41

 Hurt

0.38

 சேர்க்க

0.38

蟹

0.38

 привіт

0.37

 cabins

0.37

 Guerr

0.36

 ملا

0.36

Equity

0.35

 Pacífico

0.35

POSITIVE LOGITS

 contempt

2.31

 disdain

2.09

 scorn

1.95

 despise

1.59

 despised

1.36

蔑

1.35

sne

1.30

 scoff

1.22

 condesc

1.14

 dispar

1.13

Activations Density 0.028%