INDEX

Explanations

phrases starting with don't

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 equivalently

0.40

}$;

0.37

另一方面

0.36

dL

0.36

ीय

0.35

 Beaucoup

0.35

网站

0.34

้วน

0.34

 Affidavit

0.34

是的

0.33

POSITIVE LOGITS

ahue

0.61

нца

0.49

ny

0.46

don

0.45

 jangan

0.45

’

0.45

jangan

0.45

ating

0.43

ato

0.43

nelly

0.43

Activations Density 0.005%