INDEX

Explanations

defining examples or categories

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

RIPT

-0.09

Č\n

-0.09

ulus

-0.08

 Ð¸Ð¼ÐµÐ½Ð½Ð¾

-0.08

adin

-0.08

nak

-0.08

istan

-0.08

lest

-0.08

ï½¯

-0.08

POSITIVE LOGITS

 adalah

0.16

 would

0.14

æĺ¯

0.13

is

0.13

 ÎµÎ¯Î½Î±Î¹

0.13

 lÃł

0.12

 æĺ¯

0.11

çļĦæĺ¯

0.11

ëĬĶ

0.10

 Ã¤r

0.10

Activations Density 0.092%