INDEX

Explanations

properly trained for families

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 pups

-0.16

 Puppy

-0.14

 puppies

-0.14

 kittens

-0.13

 Kitt

-0.13

 kitt

-0.12

 puppy

-0.11

 kitten

-0.10

pup

-0.10

dic

-0.09

POSITIVE LOGITS

 compatibility

0.13

 compat

0.13

 neut

0.13

 households

0.13

 Compatibility

0.12

Compatibility

0.12

 allerg

0.12

 hypo

0.11

 personalities

0.11

 Energy

0.11

Activations Density 0.038%