INDEX

Explanations

good and evil, control, morality, age

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

çĶ¨äºİ

-0.10

 because

-0.09

 moments

-0.09

odyn

-0.09

Bat

-0.09

 WHATSOEVER

-0.08

vi

-0.08

tractor

-0.08

nip

-0.08

ller

-0.08

POSITIVE LOGITS

 told

0.15

 tema

0.10

themes

0.10

 Ø¨Ø·

0.10

é¡Į

0.09

 angle

0.09

 Abyss

0.09

 Thema

0.08

casting

0.08

cou

0.08

Activations Density 0.120%