INDEX

Explanations

human identity and simulation

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 imperson

-0.12

anonymous

-0.10

åİħ

-0.09

 neutr

-0.09

ADF

-0.09

 Hammer

-0.08

 footnote

-0.08

 effic

-0.08

FromClass

-0.08

 ÑģÐ¿Ð¾Ðº

-0.08

POSITIVE LOGITS

 human

0.36

 Human

0.26

human

0.26

-human

0.25

Human

0.23

 humans

0.23

 normal

0.21

_human

0.21

 flesh

0.19

UMAN

0.19

Activations Density 0.234%