INDEX

Explanations

suggests or argues

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 confirm

-0.09

æĺ¾

-0.09

 illustr

-0.09

UpDown

-0.09

/legal

-0.09

undry

-0.09

icode

-0.09

ymb

-0.09

_MT

-0.08

uzzer

-0.08

POSITIVE LOGITS

 suggests

0.40

 suggest

0.39

suggest

0.31

 suggesting

0.31

uggest

0.28

sug

0.26

 suggestion

0.23

 suggested

0.23

 argues

0.20

 suggestions

0.19

Activations Density 0.067%