INDEX

Explanations

filter following #

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

acom

-0.10

 dred

-0.10

urch

-0.10

 generate

-0.10

 generated

-0.09

 generates

-0.09

.generate

-0.09

 âĹĦ

-0.09

 Balk

-0.09

-generated

-0.09

POSITIVE LOGITS

 filter

0.16

åĬłå·¥

0.15

 filters

0.14

 filtering

0.14

è¿Ľä¸ĢæŃ¥

0.13

Filter

0.13

filter

0.12

 Filter

0.12

 Filters

0.12

 parse

0.12

Activations Density 0.079%