INDEX

Explanations

vulnerabilities

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

tri

-0.79

 trim

-0.79

 Trim

-0.75

 identity

-0.65

trim

-0.65

 trail

-0.60

safety

-0.60

Tri

-0.58

trimmed

-0.56

Trim

-0.56

POSITIVE LOGITS

 Jefus

0.67

ValueStyle

0.66

MigrationBuilder

0.63

EDEFAULT

0.62

aarrggbb

0.61

ſelf

0.61

 cults

0.61

 nahilalakip

0.60

 Communism

0.60

 itſelf

0.60

Activations Density 0.065%