INDEX

Explanations

states of being subjected

New Auto-Interp

Configuration

Prompts (Dashboard)

392,802 prompts, 256 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

нення

1.58

보기

1.56

низ

1.51

 Erklärung

1.49

пей

1.49

 étude

1.48

 зробити

1.47

㍉

1.46

istoire

1.46

 защиту

1.45

POSITIVE LOGITS

 seduced

1.86

 lured

1.83

 intimidated

1.82

 overwhelmed

1.73

 harassed

1.70

 distracted

1.70

 tricked

1.68

 bombarded

1.65

 fooled

1.64

 involved

1.63

Activations Density 2.675%