INDEX

Explanations

mine, ours, yours, hers

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 yourselves

-0.13

illac

-0.11

aben

-0.09

 Thou

-0.09

aus

-0.09

Ã¡v

-0.08

chg

-0.08

 themselves

-0.08

ifie

-0.08

 beni

-0.08

POSITIVE LOGITS

 mine

0.53

mine

0.45

Mine

0.44

 Mine

0.41

 ours

0.39

 hers

0.34

 mines

0.29

èĩªå·±çļĦ

0.29

ours

0.29

OURS

0.28

Activations Density 0.142%