INDEX

Explanations

phrases related to support and assistance in various contexts

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

cerebras/SlimPajama-627B

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Irr

-0.06

 retal

-0.06

UFO

-0.06

 wide

-0.06

 Rosenstein

-0.06

 mechan

-0.06

kal

-0.06

OutputStream

-0.06

wide

-0.06

OnInit

-0.06

POSITIVE LOGITS

agli

0.09

Safety

0.08

 safely

0.08

 Safety

0.08

Danger

0.08

ToRemove

0.07

SAF

0.07

EGIN

0.07

 safety

0.07

adh

0.07

Activations Density 0.001%