INDEX

Explanations

conservatism and averages

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 scores

-0.10

 always

-0.09

osi

-0.09

umer

-0.08

ThreadPool

-0.08

cores

-0.08

à¤¶à¤¨

-0.08

ï¼Ŀï¼Ŀ

-0.08

 excuse

-0.08

emu

-0.08

POSITIVE LOGITS

 conservative

0.22

 conserv

0.22

 Conserv

0.21

 conservatism

0.17

 average

0.17

 Conservative

0.15

 rough

0.14

 conservatives

0.14

à¹Ģà¸īà¸¥

0.14

extr

0.14

Activations Density 0.107%