INDEX

Explanations

here are some

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

¶Į

-0.10

ernaut

-0.09

odon

-0.09

elic

-0.08

Ø§ÙĦØ¥ÙĨØ¬ÙĦÙĬØ²ÙĬØ©

-0.08

 cÃ²n

-0.08

airo

-0.08

åıĬåħ¶

-0.08

''"

-0.08

telefone

-0.08

POSITIVE LOGITS

 below

0.32

 Below

0.30

Below

0.28

ä»¥ä¸ĭ

0.28

below

0.25

 following

0.22

 Ð½Ð¸Ð¶Ðµ

0.20

ä¸ĭ

0.20

 Here

0.19

 BELOW

0.18

Activations Density 0.085%