INDEX

Explanations

sealed, herself, hers

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

éŃĶæ³ķ

-0.11

elop

-0.10

 Magick

-0.10

âĹİ

-0.10

jab

-0.10

urette

-0.09

 vind

-0.09

gov

-0.09

 infr

-0.09

ennifer

-0.09

POSITIVE LOGITS

 powers

0.15

powers

0.13

 power

0.12

powered

0.11

 absor

0.11

 seals

0.11

å°ģ

0.11

 Fusion

0.11

 seal

0.10

 fusion

0.10

Activations Density 0.101%