INDEX

Explanations

"`:`, `married`, `Intelligence`, `Output`, `_gender`

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

-0.10

ulan

-0.09

.mas

-0.09

.IContainer

-0.09

CJK

-0.08

 Ston

-0.08

ongyang

-0.08

ëĨĵ

-0.08

.Dot

-0.08

RITE

-0.08

POSITIVE LOGITS

 same

0.42

 again

0.35

same

0.33

 Same

0.31

Same

0.29

 Again

0.28

åĲĮ

0.28

again

0.27

 similar

0.26

 SAME

0.26

Activations Density 0.033%