INDEX

Explanations

would previously have

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

iams

-0.09

 deserved

-0.09

iat

-0.09

otent

-0.09

aben

-0.08

Ard

-0.08

mare

-0.08

-tank

-0.08

yw

-0.08

çĨ

-0.08

POSITIVE LOGITS

 humans

0.21

 human

0.18

human

0.15

äººç±»

0.15

 performed

0.14

 ÑĩÐµÐ»Ð¾Ð²ÐµÑĩÐµÑģ

0.13

 Humans

0.12

 ìĿ¸ê°Ħ

0.12

-human

0.12

Humans

0.11

Activations Density 0.034%