INDEX

Explanations

butt, ass, arse

The neuron fires strongly on coarse, insulting language—especially “ass”-based profanity (e.g. “kick its ass,” “pain in the ass,” “bad ass,” “asses,” “working her ass off”).

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

Negative Logits

Sach

-0.78

忍受

-0.77

довые

-0.77

 AllMovie

-0.75

ışık

-0.75

alimenta

-0.71

uteur

-0.70

 mélang

-0.69

DEPTH

-0.69

worms

-0.68

POSITIVE LOGITS

ass

3.42

 butt

2.38

 asses

2.30

ass

2.19

Ass

2.02

 arse

2.00

ASS

1.97

Ass

1.88

ASS

1.73

 Butt

1.63

Activations Density 0.014%