INDEX

Explanations

spin, spinning, misdirection, evasion

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ISME

-0.82

IMENT

-0.80

кля

-0.77

ꜜ

-0.75

侵

-0.73

 осу

-0.73

 superstition

-0.71

 exacting

-0.71

桟

-0.71

 stupid

-0.70

POSITIVE LOGITS

 spin

1.60

spin

1.59

 spinning

1.42

Spin

1.39

 dising

1.30

 Spin

1.30

 spins

1.27

 evasion

1.23

 SPIN

1.20

 twisting

1.18

Activations Density 0.057%