INDEX

Explanations

poison and venomous entities

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Howe

-0.10

 parasite

-0.10

 parasites

-0.09

 pathogens

-0.09

ixo

-0.08

destruct

-0.08

 numberWith

-0.08

 viruses

-0.08

blem

-0.08

::_

-0.08

POSITIVE LOGITS

 poison

0.31

 poisoning

0.29

 Poison

0.27

 poisonous

0.25

Po

0.25

-po

0.24

æ¯Ĵ

0.24

 poisoned

0.23

_po

0.22

po

0.22

Activations Density 0.068%