INDEX

Explanations

payment, payroll, attention, respect

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

EditMode

-0.10

ãĥĥãĥī

-0.10

 payouts

-0.09

 Cair

-0.09

 payments

-0.09

estar

-0.09

Haz

-0.09

payments

-0.08

Marco

-0.08

Haz

-0.08

POSITIVE LOGITS

offs

0.17

 attention

0.17

stub

0.16

roll

0.16

back

0.16

rolls

0.16

 respects

0.16

 homage

0.15

wall

0.15

walls

0.14

Activations Density 0.027%