INDEX

Explanations

unnecessary or unwanted

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

빼

0.48

happiness

0.45

 happiness

0.43

Subtract

0.42

స్తే

0.41

Happiness

0.41

 confidence

0.40

 endurance

0.39

ện

0.38

빼

0.38

POSITIVE LOGITS

尷

0.62

 obnoxious

0.61

尴尬

0.61

 unnecessary

0.60

 unwanted

0.58

 spurious

0.58

 unsightly

0.56

 unpleasant

0.55

代わりに

0.55

 awkward

0.54

Activations Density 0.057%