INDEX

Explanations

strength lies, difference is, valor resides

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 resting

-0.09

AVC

-0.08

eme

-0.08

 meme

-0.08

 qualified

-0.08

enos

-0.08

odos

-0.08

ugin

-0.08

vik

-0.08

 ìĹĨìĹĪëĭ¤

-0.08

POSITIVE LOGITS

 lies

0.66

lie

0.61

 Lies

0.49

lies

0.47

lie

0.45

 Ð»ÐµÐ¶

0.44

Lie

0.42

 lying

0.40

 náº±m

0.40

 liegt

0.39

Activations Density 0.117%