INDEX

Explanations

security and safety

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 trad

0.45

 vaguely

0.45

 gợi

0.44

 unofficial

0.42

 vague

0.40

 mogao

0.40

 marketable

0.39

 😍

0.39

 disappointed

0.39

 unclear

0.39

POSITIVE LOGITS

 safeguards

0.94

 seguridad

0.92

 सुरक्षा

0.91

 keamanan

0.91

 biztons

0.91

 bezpiecze

0.90

 sicurezza

0.89

 sikker

0.88

 segurança

0.87

 안전

0.86

Activations Density 0.276%