INDEX

Explanations

figure references

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ukone

-0.73

ритори

-0.56

"));

-0.55

}`}>

-0.54

}/

-0.53

++;

-0.52

}`);

-0.51

shmi

-0.50

));

-0.49

}`}

-0.49

POSITIVE LOGITS

Portail

0.54

 ervan

0.50

 betrek

0.49

 HttpHeaders

0.49

 betrokken

0.44

(§

0.43

hören

0.43

 Comprometido

0.42

deutung

0.42

teardown

0.42

Activations Density 0.001%