INDEX

Explanations

jailbreak and prison contexts

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 jails

-0.12

 imprisoned

-0.12

 prisons

-0.11

 imprisonment

-0.11

 incarcerated

-0.11

 incarceration

-0.11

 Arrest

-0.10

 arrests

-0.10

 arrest

-0.10

 imprison

-0.10

POSITIVE LOGITS

break

0.14

 cells

0.13

bird

0.13

 yard

0.13

house

0.12

 cell

0.12

ers

0.12

-yard

0.12

 sentence

0.12

nier

0.12

Activations Density 0.022%