INDEX

Explanations

safety and danger warnings

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

😔

0.99

 lament

0.94

😞

0.94

 Lament

0.86

에

0.85

𝒜

0.85

 negation

0.83

 부정

0.82

ToString

0.80

⏮

0.80

POSITIVE LOGITS

Safety

2.14

 Safety

2.12

 safety

2.11

安全

1.95

safety

1.91

 danger

1.78

 安全

1.76

 safely

1.74

 SAFETY

1.68

 dangers

1.66

Activations Density 0.754%