INDEX

Explanations

honorific titles and mentions

The neuron detects honorifics and award‐related terms (titles and distinctions such as “Honorary,” “Hon.,” “Honored,” “Meritorious,” “decorated,” etc.).

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

Negative Logits

 honor

-0.88

ميم

-0.81

 utilisées

-0.77

 honour

-0.77

辕

-0.76

 Honors

-0.75

婆

-0.75

>>();

-0.74

ồ

-0.74

 usato

-0.73

POSITIVE LOGITS

 Mention

1.20

 mention

1.08

 mentions

1.04

 doctorate

0.99

ބ

0.98

Mention

0.94

 member

0.93

member

0.90

 Mentions

0.88

 citado

0.85

Activations Density 0.009%