INDEX

Explanations

spoil, paradox of choice

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Saad

0.38

urov

0.36

 કર

0.35

="/">

0.35

сама

0.35

͡

0.35

 sapon

0.34

 сам

0.34

jos

0.34

₤

0.34

POSITIVE LOGITS

 spoiled

1.82

 spoilt

1.79

 spoil

1.38

 spoiling

1.34

spo

1.32

Spo

1.31

 spoils

1.29

spo

1.20

Spo

1.11

 spoiler

0.96

Activations Density 0.003%