INDEX

Explanations

potential risks and ethical implications

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Ø§ÙĦØŃØ¯ÙĬØ«

-0.10

ahlen

-0.09

umn

-0.09

leaning

-0.09

PROP

-0.09

elda

-0.09

.epam

-0.08

;;;;;;;;

-0.08

 precarious

-0.08

Qed

-0.08

POSITIVE LOGITS

 ethical

0.14

 potential

0.14

 risks

0.13

 impact

0.13

Ris

0.12

 Direction

0.12

 safety

0.12

 Brave

0.12

 society

0.12

 possibilities

0.12

Activations Density 0.048%