INDEX

Explanations

vulnerability/importance

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 immunity

-0.81

 OFDb

-0.74

 nakalista

-0.67

 Immunity

-0.65

TagMode

-0.63

 Wayback

-0.63

SequentialGroup

-0.62

GEBURTSDATUM

-0.62

StoreMessageInfo

-0.62

Diwedd

-0.61

POSITIVE LOGITS

anmoins

0.57

 متعلقه

0.57

 from

0.53

ambilan

0.51

 devoir

0.51

 htmlFor

0.50

 parlant

0.47

enseignements

0.46

 Füße

0.46

 réguli

0.45

Activations Density 0.071%