INDEX

Explanations

smoking and drinking

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 drinks

-0.31

 Drinks

-0.28

 beverages

-0.26

 drink

-0.25

 beverage

-0.25

 booze

-0.24

 Drink

-0.21

Drink

-0.21

 Beverage

-0.20

 alcohol

-0.20

POSITIVE LOGITS

nib

0.12

 Tobacco

0.12

 tobacco

0.11

 cigars

0.11

 appet

0.11

 cigarettes

0.11

 cigar

0.10

cig

0.10

'gc

0.09

avic

0.09

Activations Density 0.048%