INDEX

Explanations

violation of rules or laws

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

åĳĬåĪ«

-0.26

ä¸Ģæī¹

-0.25

è¡¥é½Ĳ

-0.25

ç»ıéªĮä¸°å¯Į

-0.25

ç»ĵæĿŁåĲİ

-0.24

å®ĮæĪĲåĲİ

-0.24

ä¸İä¼Ĺä¸įåĲĮ

-0.24

ãģĵãĤĮãģĭãĤī

-0.23

getter

-0.23

 ready

-0.22

POSITIVE LOGITS

è§Ħå®ļ

0.36

è¦ıå®ļ

0.31

è§Ħç«ł

0.30

 norms

0.29

 regulations

0.29

 violated

0.28

è§Ħå®ļçļĦ

0.28

è¦ģæ±Ĥ

0.28

çļĦè¦ģæ±Ĥ

0.28

çļĦè§Ħå®ļ

0.28

Activations Density 0.052%