INDEX

Explanations

misleading or incorrect statements

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 sawa

0.48

 सराहना

0.38

优

0.38

Mad

0.37

 प्रतीत

0.37

츄

0.37

yama

0.37

ayan

0.36

নকে

0.36

MDA

0.36

POSITIVE LOGITS

 제대로

0.38

激

0.37

 grat

0.35

 capazes

0.34

KindOfClass

0.34

 imposing

0.33

 capable

0.32

íses

0.32

全力

0.32

Dramatic

0.32

Activations Density 0.019%