INDEX

Explanations

Baron, Brennan, Yama, Kopp

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

!<

-0.82

 overlooked

-0.77

を書いて

-0.74

 drawbacks

-0.72

чин

-0.71

 rollercoaster

-0.71

 surve

-0.70

 mūsų

-0.70

 uphe

-0.69

 escap

-0.68

POSITIVE LOGITS

Co

1.11

Co

0.98

 Kenobi

0.80

］

0.79

CO

0.75

 chỉnh

0.75

èque

0.75

코

0.74

 кө

0.74

Activations Density 0.167%