INDEX

Explanations

failures, deception, violations

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 will

-1.32

 Однако

-1.23

 hopefully

-1.11

もう少し

-1.09

 like

-1.05

TOKYO

-0.98

 azonban

-0.98

lüsse

-0.97

是大

-0.95

Однако

-0.94

POSITIVE LOGITS

tôi

1.22

 addirittura

1.21

 bolsos

1.21

ग्री

1.20

 toallas

1.17

 Сергей

1.14

 Meilleures

1.12

Cuándo

1.11

tily

1.11

never

1.11

Activations Density 0.055%