INDEX

Explanations

my figure

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

.scalablytyped

-0.10

 himself

-0.09

 indeed

-0.09

åĪļæīį

-0.09

_Tis

-0.09

ä¸Ī

-0.09

 yourself

-0.09

emiz

-0.09

_tE

-0.09

oreferrer

-0.09

POSITIVE LOGITS

my

0.23

 myself

0.23

æĪĳçļĦ

0.21

 minha

0.19

æĪĳ

0.19

 saya

0.18

 tÃ´i

0.17

 meiner

0.17

 Ð¼Ð¾

0.16

 mijn

0.16

Activations Density 0.080%