INDEX

Explanations

Pride and Prejudice titles

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Mime

-0.09

aggio

-0.09

 McLaren

-0.09

kah

-0.09

 ï½ľ

-0.09

ç«¥

-0.09

 Chester

-0.09

inges

-0.09

Coc

-0.09

izen

-0.09

POSITIVE LOGITS

 Aust

0.28

 Pride

0.25

 Jane

0.22

 Benn

0.20

Jane

0.18

 jane

0.17

 pride

0.16

 Sense

0.15

 Wick

0.14

0.13

Activations Density 0.028%