INDEX

Explanations

harm, threats, distress

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

៦

0.49

 சிறப்பாக

0.49

ចប់

0.47

icioso

0.45

 சின்னமாக

0.44

 માત્ર

0.44

 লিও

0.44

 студен

0.44

旁邊

0.44

Kiza

0.43

POSITIVE LOGITS

 aforementioned

0.46

사

0.46

 loopholes

0.43

 reconc

0.42

 booze

0.41

 juggle

0.40

 sanctions

0.40

 laminate

0.40

 collectively

0.38

 roadmap

0.38

Activations Density 0.023%