INDEX

Explanations

safety

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 safety

-2.31

safety

-2.19

Safety

-2.11

 Safety

-2.00

 SAFETY

-1.87

SAFETY

-1.56

 veiligheid

-1.41

afety

-1.32

 sécurité

-1.23

Sicherheit

-1.16

POSITIVE LOGITS

viewDidLoad

0.45

的第一

0.45

appara

0.44

 measures

0.43

 features

0.41

 codes

0.41

for

0.40

 since

0.40

forKey

0.40

seud

0.40

Activations Density 0.064%