INDEX

Explanations

in the country, society, favor

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

oppins

-0.09

ĥ

-0.09

inki

-0.08

 Sloan

-0.08

 imprint

-0.08

owo

-0.08

 jurisdictions

-0.08

Łèĥ½

-0.08

 outside

-0.08

PPER

-0.08

POSITIVE LOGITS

 society

0.29

 Society

0.20

ociety

0.18

 favor

0.16

 wake

0.14

 favour

0.14

 ranks

0.13

 sociÃ©tÃ©

0.13

 sociedad

0.13

wake

0.13

Activations Density 0.097%