INDEX

Explanations

ensure safety

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Sdk

-0.09

Sus

-0.09

 Sever

-0.09

 nonatomic

-0.09

Sus

-0.09

Sv

-0.09

otal

-0.08

alus

-0.08

 valueForKey

-0.08

 Sylv

-0.08

POSITIVE LOGITS

 safe

0.61

 safety

0.60

å®īåħ¨

0.55

 safer

0.52

 Safety

0.48

 Safe

0.46

safe

0.46

-safe

0.46

 safest

0.46

 Ð±ÐµÐ·Ð¾Ð¿Ð°Ñģ

0.46

Activations Density 0.181%