INDEX

Explanations

person's work or identity

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 famously

-0.09

etsk

-0.09

 Funk

-0.09

 Roles

-0.09

 Kunst

-0.08

bi

-0.08

arts

-0.08

kun

-0.08

/result

-0.08

POSITIVE LOGITS

 produces

0.15

 releasing

0.14

 produce

0.14

 producing

0.13

 gained

0.13

 creates

0.13

 gaining

0.12

 whose

0.12

 experiment

0.12

 signed

0.11

Activations Density 0.133%