INDEX

Explanations

jail, jailbreak, jail term

the word "jail" in various contexts.

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

Negative Logits

 และ

-3.78

缡

-3.75

…？

-2.94

Ꝑ

-2.77

ญี่ป

-2.70

艄

-2.69

⸫

-2.66

腚

-2.64

 nhưng

-2.63

僰

-2.63

POSITIVE LOGITS

to

2.95

😇

2.39

如果

2.38

其他

2.36

}$

2.34

去

2.31

人の

2.31

外的

2.30

鬈

2.25

 Grâce

2.22

Activations Density 0.002%