INDEX

Explanations

serious or "che non"

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Extremely

-0.09

oku

-0.09

 frankly

-0.09

_WP

-0.09

lx

-0.09

okies

-0.09

edo

-0.09

asy

-0.08

éĿ

-0.08

 recru

-0.08

POSITIVE LOGITS

 serious

0.82

 seriousness

0.71

 Serious

0.67

serious

0.65

 seriously

0.51

 ÑģÐµÑĢÑĮÐµÐ·

0.49

 ÑģÐµÑĢÑĮ

0.44

 ciddi

0.43

 Seriously

0.42

ern

0.41

Activations Density 0.143%