INDEX

Explanations

action to take

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

sum

-0.09

 Gardner

-0.09

Yaz

-0.08

 Blades

-0.08

oningen

-0.08

 Dickinson

-0.08

Lac

-0.08

 Guill

-0.08

ACE

-0.08

POSITIVE LOGITS

 actions

0.23

 action

0.22

 Actions

0.19

è¡ĮåĬ¨

0.18

action

0.16

 Action

0.16

actions

0.15

-actions

0.15

.action

0.14

è¡Įåĭķ

0.14

Activations Density 0.103%