INDEX

Explanations

Reinforcement Learning from Human Feedback

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 अना

0.46

idents

0.42

यॉर्क

0.41

getcwd

0.41

 чуде

0.40

 namespaces

0.40

 SQLAlchemy

0.39

 तूफान

0.39

<0x1C>

0.39

 offensive

0.39

POSITIVE LOGITS

Feedback

0.82

 Reward

0.77

 Feedback

0.75

 feedback

0.74

 reward

0.74

Reward

0.73

feedback

0.70

 Rein

0.70

Rein

0.69

 reinforcement

0.68

Activations Density 0.018%