INDEX

Explanations

potential risks and benefits

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

kek

-0.10

ExceptionHandler

-0.10

cth

-0.09

 intermediate

-0.09

_ctl

-0.09

vyp

-0.09

EH

-0.08

Memcpy

-0.08

luv

-0.08

Dah

-0.08

POSITIVE LOGITS

 interactions

0.36

 interaction

0.31

 Interaction

0.31

Interaction

0.27

interaction

0.26

 interact

0.25

 contr

0.25

 interacts

0.22

 side

0.21

 interactive

0.20

Activations Density 0.042%