INDEX

Explanations

detecting and deleting outliers

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

.:.

-0.09

 bÃ¶

-0.09

 openings

-0.09

trak

-0.09

Yaz

-0.09

edReader

-0.09

EP

-0.08

ptr

-0.08

 Shak

-0.08

 decre

-0.08

POSITIVE LOGITS

 extreme

0.27

Out

0.23

 Extreme

0.22

 outliers

0.22

 outlier

0.22

Extreme

0.21

liers

0.19

Out

0.18

_out

0.17

dev

0.16

Activations Density 0.051%