INDEX

Explanations

desirability of states

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

痕

0.45

Quantidade

0.44

用到

0.42

 displayNumber

0.41

ANIUM

0.40

 подход

0.40

 കത്തി

0.40

눴

0.39

鏃

0.39

 Utilisez

0.39

POSITIVE LOGITS

 paradise

1.02

 desirability

0.96

 unpleasant

0.94

 desirable

0.93

 misery

0.90

 preferable

0.89

 pleasant

0.88

 idyllic

0.86

 undesirable

0.84

 pleasurable

0.84

Activations Density 0.015%