INDEX

Explanations

objectification and degradation

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Shared

0.46

நம்

0.42

domain

0.41

 sangat

0.41

 domain

0.40

 vår

0.40

我們的

0.38

 بتاعتنا

0.38

 naszym

0.38

<0xCB>

0.38

POSITIVE LOGITS

牲

0.48

 unlucky

0.47

 என்பவர்

0.47

 обслу

0.45

 తగ్

0.42

 nameless

0.42

被人

0.42

ону

0.41

出现在

0.41

 unwitting

0.41

Activations Density 0.113%