INDEX

Explanations

attack, pursue, prey

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

åĮ

-0.10

 hungry

-0.10

 attackers

-0.10

 ourselves

-0.09

 stranger

-0.09

 ruthless

-0.09

.ribbon

-0.09

uli

-0.09

rada

-0.08

 zÃ¡b

-0.08

POSITIVE LOGITS

 victim

0.24

 victims

0.24

 innocent

0.23

 Victim

0.20

hap

0.19

victim

0.19

 Innoc

0.19

 prey

0.18

 innoc

0.16

 Victims

0.16

Activations Density 0.143%