INDEX

Explanations

additional items seized

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 paras

-0.10

 kidn

-0.09

 scarc

-0.09

 Tomb

-0.09

Lob

-0.09

doz

-0.09

ä¾

-0.08

arem

-0.08

adera

-0.08

 crossorigin

-0.08

POSITIVE LOGITS

 evidence

0.28

inc

0.22

 Evidence

0.21

Evidence

0.18

 ÑĥÐ»Ð¸

0.16

 comprom

0.16

 recovered

0.16

 seized

0.16

vidence

0.14

 discovery

0.14

Activations Density 0.073%