INDEX

Explanations

unexpected or surprising

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Ꮬ

0.42

ILabel

0.41

চ্ছুক

0.39

রামর্শ

0.39

ेक्स

0.38

🔐

0.38

ци

0.38

멤버

0.37

ქმ

0.37

Scoped

0.37

POSITIVE LOGITS

 surprising

1.83

 unexpected

1.78

 überras

1.71

 surprise

1.67

 sorprend

1.66

 surprises

1.63

 surprised

1.62

unexpected

1.59

 inesper

1.55

 surpre

1.55

Activations Density 0.155%