INDEX

Explanations

levels of measurable concepts

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

.scalablytyped

-0.10

(íģ¬ê¸°

-0.10

 Peak

-0.10

deen

-0.09

 Gins

-0.09

 ÐĴÐ»Ð°Ð´Ð¸

-0.09

 proportions

-0.09

ardon

-0.08

 efficiencies

-0.08

Dut

-0.08

POSITIVE LOGITS

 levels

0.47

 level

0.42

 Levels

0.33

levels

0.33

Levels

0.28

level

0.27

_levels

0.27

 nive

0.25

 score

0.25

æ°´å¹³

0.24

Activations Density 0.136%