INDEX

Explanations

feeling or state

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 enchanted

-0.11

unm

-0.11

à¤Ł

-0.10

iáº¿m

-0.10

iá»ģm

-0.09

Associated

-0.09

 Intelligent

-0.09

 incoming

-0.09

 intimately

-0.09

POSITIVE LOGITS

 free

0.18

 alive

0.16

reb

0.16

 part

0.15

 FREE

0.14

ONE

0.13

 Alive

0.13

One

0.12

alive

0.12

free

0.12

Activations Density 0.083%