INDEX

Explanations

from one to another

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 SINGLE

-0.10

 Ones

-0.10

-three

-0.09

-0.08

ONES

-0.08

egin

-0.08

åįĺ

-0.08

ëģĶ

-0.08

urus

-0.08

à¸¹à¸Ļ

-0.08

POSITIVE LOGITS

one

0.71

 satu

0.42

 Ð¾Ð´Ð½Ð¾Ð³Ð¾

0.36

one

0.34

 jednÃ©

0.33

 eines

0.33

 jednoho

0.33

 íķĺëĤĺ

0.32

 Ð¾Ð´Ð½Ð°

0.31

 Ð¾Ð´Ð½Ð¾Ð¹

0.30

Activations Density 0.181%