INDEX

Explanations

threats and negative outcomes

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Margins

0.49

學

0.45

Navigate

0.44

MOBILE

0.44

راب

0.44

Farmers

0.44

Optimize

0.43

سك

0.43

 فرص

0.43

盞

0.43

POSITIVE LOGITS

 castration

0.51

 effetto

0.49

 efeitos

0.49

 enraged

0.48

 murdered

0.47

 estrut

0.47

 murder

0.46

 nyata

0.46

 shock

0.45

 paralyzed

0.45

Activations Density 0.003%