INDEX

Explanations

positive qualities after possessives

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 odense

-0.09

ABCDEFGHIJKLMNOP

-0.09

xit

-0.09

ainen

-0.09

ÙĪÛĮÙĨØª

-0.08

 Ã¥rhus

-0.08

atra

-0.08

<|begin_of_text|>

-0.08

ocene

-0.08

 meticulous

-0.08

POSITIVE LOGITS

 commitment

0.30

 focus

0.28

commit

0.24

 emphasis

0.23

 Commit

0.22

focus

0.20

emphasis

0.19

 commit

0.19

 ability

0.19

 dedication

0.19

Activations Density 0.022%