INDEX

Explanations

hijack, hijacked, hijacking

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 burg

-0.89

Burg

-0.84

burg

-0.79

 burglar

-0.79

 intruders

-0.77

 Burg

-0.77

 downstairs

-0.77

BURG

-0.76

Homes

-0.73

 intruder

-0.72

POSITIVE LOGITS

 hijack

2.59

jacking

2.25

 jack

2.11

jack

2.11

JACK

1.70

Hij

1.69

Jack

1.61

 Jack

1.52

Hij

1.47

 commande

1.44

Activations Density 0.045%