INDEX

Explanations

refusal or unsafe content discussion

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 занима

0.45

venir

0.43

めん

0.41

 Merge

0.41

Son

0.40

SON

0.39

갑

0.39

ం

0.38

న్‌లో

0.38

worldly

0.38

POSITIVE LOGITS

 সমস্যায়

0.50

 আপনাকে

0.47

 potrà

0.47

 جسے

0.46

 paragraphs

0.46

 soprattutto

0.45

িস্টার

0.45

et

0.45

 deberán

0.44

iaa

0.44

Activations Density 0.009%