INDEX

Explanations

stage

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ilen

-0.11

 Schro

-0.09

 onboard

-0.09

adir

-0.09

 åº

-0.08

nici

-0.08

iano

-0.08

 bench

-0.08

 Ferguson

-0.08

acket

-0.08

POSITIVE LOGITS

 stage

0.71

stage

0.50

-stage

0.49

 Stage

0.48

Stage

0.46

 stages

0.43

.stage

0.42

_stage

0.41

\tstage

0.38

(stage

0.38

Activations Density 0.068%