INDEX

Explanations

program introduction

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 addCriterion

-0.09

ÐµÐ·ÑĥÐ»ÑĮÑĤ

-0.09

avern

-0.09

 Armed

-0.08

allas

-0.08

 âĶĢ

-0.08

pu

-0.08

.react

-0.08

.scalablytyped

-0.08

 ãĢĥ

-0.08

POSITIVE LOGITS

bove

0.09

 function

0.08

Slf

0.08

¶Į

0.08

 Function

0.08

function

0.08

arah

0.08

Ð¾Ð»Ð¸ÑĤ

0.08

 above

0.08

Activations Density 0.108%