INDEX

Explanations

assistant response delimiters

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Titles

-0.09

 Titles

-0.09

Ea

-0.08

 Markus

-0.08

eker

-0.08

Ai

-0.08

Ai

-0.07

_PLUGIN

-0.07

Zi

-0.07

POSITIVE LOGITS

 according

0.12

 sentence

0.12

 gÃ¶re

0.12

 stated

0.11

 According

0.10

According

0.10

according

0.09

entence

0.09

asca

0.09

 phrases

0.09

Activations Density 0.057%