INDEX

Explanations

optimistic despite, dark humor, positive energy

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

uno

-0.10

 Beng

-0.09

ahoo

-0.09

 disadv

-0.09

EMPLARY

-0.09

******/

-0.08

oller

-0.08

ãĥ³ãĥĦ

-0.08

 sober

-0.08

.scalablytyped

-0.08

POSITIVE LOGITS

optim

0.38

 Optim

0.36

 optim

0.36

 Ð¾Ð¿ÑĤÐ¸Ð¼

0.33

 optimistic

0.32

 optimism

0.30

Opt

0.28

.optim

0.26

 glass

0.24

 positive

0.23

Activations Density 0.128%