INDEX

Explanations

what

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

PlotsExplanationShow Test FieldDefault Test Text

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 does

-0.50

does

-0.45

 might

-0.43

did

-0.41

 exactly

-0.40

 Ð¸Ð¼ÐµÐ½Ð½Ð¾

-0.39

 Does

-0.38

did

-0.37

 could

-0.37

_does

-0.36

POSITIVE LOGITS

erate

0.28

opens

0.26

eca

0.26

ä¹Łæ²¡ä»Ģä¹Ī

0.25

äº²

0.25

rÃ¼

0.24

_ALLOWED

0.24

eden

0.24

entious

0.23

çļĦåĪ°æĿ¥

0.23

Activations Density 0.888%