INDEX

Explanations

fitting or describing

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 treated

-0.10

ogue

-0.09

ffer

-0.09

 extrapol

-0.09

ayet

-0.09

 mistaken

-0.08

 Barth

-0.08

ertools

-0.08

hsi

-0.08

POSITIVE LOGITS

fit

0.25

 fitting

0.25

 fits

0.25

apt

0.22

 accurately

0.20

 Fits

0.20

 best

0.20

fit

0.20

 describe

0.20

 describes

0.20

Activations Density 0.206%