INDEX

Explanations

включая

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Defs

-0.09

ÐµÐ½Ð½Ð¾Ð¼

-0.09

kon

-0.09

arth

-0.09

eyJ

-0.09

InstanceOf

-0.09

ÐµÑĤÑĮÑģÑı

-0.09

ole

-0.09

ers

-0.08

positor

-0.08

POSITIVE LOGITS

 into

0.11

Ð°ÐµÑĤ

0.10

iT

0.09

/embed

0.09

<|begin_of_text|>

0.09

 erotique

0.09

Roz

0.09

 konkrÃ©t

0.09

 consenting

0.09

Into

0.09

Activations Density 0.019%