INDEX

Explanations

at

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

PlotsExplanationShow Test FieldDefault Test Text

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ħ

-0.29

tems

-0.26

ä»·æł¼

-0.25

é¢ĳçİĩ

-0.25

ORE

-0.25

coe

-0.25

è¯¥æĢİä¹ĪåĬŀ

-0.24

alue

-0.24

.cls

-0.24

ä¾Ľ

-0.24

POSITIVE LOGITS

è¯±äºº

0.28

ä¸įå¿ĺ

0.27

 Fury

0.27

-interest

0.27

 rewarding

0.26

æİĢ

0.25

 dictatorship

0.24

egas

0.24

sworth

0.24

á»ģm

0.24

Activations Density 0.888%