INDEX

Explanations

rude, unfriendly, harsh, or grumpy adjectives

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 tragedies

0.41

 tragedy

0.41

 tranqu

0.39

纍

0.38

 tragedia

0.38

釀

0.37

 விச

0.37

├──

0.36

 व्या

0.35

inja

0.35

POSITIVE LOGITS

 rude

1.66

 arrogant

1.52

 grumpy

1.42

 unfriendly

1.41

 arrogance

1.40

 condesc

1.39

 haught

1.33

 unkind

1.27

 Rude

1.23

 arrog

1.22

Activations Density 0.108%