INDEX

Explanations

mad, crazy, unhinged

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

å¥ĩ

-0.10

unset

-0.10

icious

-0.09

 compromising

-0.09

ing

-0.09

 conscious

-0.09

POCH

-0.09

Isa

-0.09

 Freak

-0.09

iram

-0.08

POSITIVE LOGITS

 abandon

0.15

 asylum

0.14

 amounts

0.14

mad

0.12

/gen

0.12

 wild

0.11

-eyed

0.11

 antics

0.11

-making

0.11

yy

0.11

Activations Density 0.051%