INDEX

Explanations

potential consequences or approaches

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Trend

0.48

Trend

0.45

Reducing

0.44

are

0.43

reduce

0.42

olate

0.42

 reducing

0.41

owe

0.40

ﮢ

0.40

 Agreements

0.40

POSITIVE LOGITS

 mixto

0.48

 multit

0.46

 rupani

0.46

 சுமார்

0.45

दूसरी

0.45

 paquet

0.44

ǎng

0.43

 malade

0.43

 Stowe

0.43

 procé

0.43

Activations Density 0.001%