INDEX

Explanations

describing complex or contrasting traits

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

æģ

-0.10

airy

-0.09

sid

-0.09

 ***!\n

-0.09

 seasonal

-0.09

æ³Ľ

-0.09

usra

-0.08

 sensations

-0.08

 unwanted

-0.08

appy

-0.08

POSITIVE LOGITS

 unique

0.18

fun

0.16

unique

0.16

 contradictions

0.13

 uniqueness

0.13

 fasc

0.13

 interesting

0.13

 contradiction

0.12

.unique

0.12

 contrad

0.12

Activations Density 0.055%