INDEX

Explanations

exploit

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 valid

-0.78

valid

-0.68

 exploiting

-0.66

Appropriate

-0.66

 exploit

-0.65

 exploited

-0.63

 betweenstory

-0.61

tagHelperRunner

-0.60

 válida

-0.60

 válido

-0.59

POSITIVE LOGITS

ating

0.58

ated

0.57

 Pristupljeno

0.56

 kuiten

0.55

BeginContext

0.52

abb

0.51

aton

0.49

aber

0.49

]")]

0.49

agrid

0.49

Activations Density 0.056%