INDEX

Explanations

villain or antagonist

The neuron strongly activates on named entities—especially person names, character names, and other capitalized titles.

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

Negative Logits

Ԁ

-0.98

 Optimize

-0.94

 superstars

-0.93

 optimize

-0.93

retten

-0.92

ⅾ

-0.90

 optimizing

-0.83

бля

-0.82

PreferredItem

-0.82

 assaulted

-0.82

POSITIVE LOGITS

 villain

3.53

 villains

3.05

 antagonist

2.80

villain

2.47

 evil

2.45

 antagonists

2.36

 villa

2.25

 Villain

2.20

evil

2.03

villa

2.00

Activations Density 0.050%