INDEX

Explanations

ãĤ¹ãĥĪãģªãģ©

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

AndGet

-0.09

ëĵ¤ìĹĲê²Į

-0.09

ãģ«è¡Į

-0.09

ãĤĮãģ©

-0.08

ãģ«åĲĳ

-0.08

ëĵ¤ìĿĢ

-0.08

ODO

-0.08

ãģ«åħ¥

-0.08

lington

-0.08

_additional

-0.08

POSITIVE LOGITS

etc

0.35

çŃī

0.28

etc

0.27

ãģªãģ©ãģ®

0.23

ãģªãģ©

0.23

 similar

0.22

è¿Ļæł·çļĦ

0.22

 gibi

0.21

 çŃī

0.21

 ÙĪØºÙĬØ±

0.21

Activations Density 0.115%