INDEX

Explanations

letting someone do something

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

hol

-0.10

è¹

-0.09

odate

-0.09

licit

-0.09

alchemy

-0.08

ypo

-0.08

AtA

-0.08

adamente

-0.08

 Falk

-0.08

POSITIVE LOGITS

ting

0.23

go

0.22

tings

0.21

down

0.17

 slip

0.16

go

0.16

ted

0.16

TING

0.15

 sleeping

0.13

rip

0.13

Activations Density 0.015%