INDEX

Explanations

optical illusions

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 모델

-0.80

 מכל

-0.79

끝

-0.73

 космо

-0.73

 xét

-0.72

itaji

-0.71

 approval

-0.71

ódó

-0.69

 Illuminated

-0.69

観察

-0.69

POSITIVE LOGITS

 optical

3.33

 illusion

3.23

 illusions

2.75

optical

2.72

 Optical

2.58

Optical

2.56

illusion

2.39

 Illusion

2.27

 tricks

2.14

 опти

2.05

Activations Density 0.050%