INDEX

Explanations

words connecting clauses

am programmed to refuse

New Auto-Interp

Configuration

Prompts (Dashboard)

392,802 prompts, 256 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

Negative Logits

px

0.41

rod

0.38

 orij

0.37

ogy

0.37

^{\

0.37

elesaian

0.36

xo

0.36

 usage

0.36

leans

0.36

rici

0.36

POSITIVE LOGITS

ADB

0.41

̣

0.41

'$.

0.41

PMS

0.40

linalg

0.39

 Δε

0.39

‖</

0.39

AUDIO

0.39

fact

0.39

 Επι

0.38

Activations Density 0.034%