INDEX

Explanations

equal and comparative phrases

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

veh

-0.10

@@

-0.09

rak

-0.09

 alternatively

-0.08

ieu

-0.08

 navÃŃc

-0.08

umper

-0.08

inu

-0.08

iti

-0.08

POSITIVE LOGITS

 equally

0.77

 igual

0.46

 stejnÄĽ

0.41

 equal

0.36

 rÃ³wn

0.33

 ÑĢÐ°Ð²Ð½Ð¾

0.33

equal

0.27

ä¸Ģæł·

0.27

Equ

0.26

 Equal

0.25

Activations Density 0.170%