INDEX

Explanations

filtering by criteria

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

fila

-0.09

 UNIQUE

-0.09

 ï¼¼:

-0.08

ãĥ¼ãĥģ

-0.08

licit

-0.08

 roster

-0.08

ODO

-0.08

allocator

-0.08

POSITIVE LOGITS

 filter

0.25

 filters

0.23

 Filter

0.21

Filter

0.20

 filtering

0.20

filter

0.19

 Filters

0.17

_filter

0.17

 popularity

0.16

filters

0.16

Activations Density 0.142%