INDEX

Explanations

majority, minority, largest

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

illo

-0.11

 Mant

-0.09

 Sung

-0.09

illas

-0.09

Yus

-0.09

illa

-0.08

urv

-0.08

rend

-0.08

Ast

-0.08

arend

-0.08

POSITIVE LOGITS

 minority

0.68

 Minority

0.51

 minorities

0.48

 majority

0.42

minor

0.38

Minor

0.36

 Majority

0.35

 mayorÃŃa

0.31

 thiá»ĥu

0.30

 minor

0.29

Activations Density 0.043%