INDEX

Explanations

phrasing related to emotional reactions and interpersonal connections

oai_token-act-pair · gpt-4o-mini Triggered by @bot

dramatic or emphatic punctuation like colons, periods, and ellipses.

oai_token-act-pair · claude-3-5-haiku-20241022 Triggered by @neilrathi

rhetorical list/range constructions and dramatic transitional structures, often signaled by colons, ellipses, and similar discourse-marking punctuation.

oai_token-act-pair · gpt-5 Triggered by @jyhe0408

punctuation marks that end or separate clauses, particularly colons and commas in lists or transitions.

oai_token-act-pair · claude-4-5-sonnet Triggered by @jyhe0408

New Auto-Interp

Top Features by Cosine Similarity

Comparing With GEMMA-2-9B @ 20-gemmascope-res-16k

Configuration

google/gemma-scope-9b-pt-res/layer_20/width_16k/average_l0_68

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Features

16,384

Data Type

float32

Hook Name

blocks.20.hook_resid_post

Hook Layer

Architecture

jumprelu

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Activation Function

relu

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 للمعارف

-0.60

 nakalista

-0.58

Rohy

-0.49

 uLocal

-0.48

abetes

-0.47

舺

-0.47

fromnode

-0.47

RTSN

-0.46

 Autorizaciones

-0.46

antart

-0.44

POSITIVE LOGITS

 inilah

0.40

 beginnetje

0.38

labelControl

0.38

Prä

0.38

all

0.36

 missão

0.36

 itulah

0.36

аза

0.35

DialogResult

0.35

XtraEditors

0.35

Activations Density 0.129%

phrasing related to emotional reactions and interpersonal connections

dramatic or emphatic punctuation like colons, periods, and ellipses.

rhetorical list/range constructions and dramatic transitional structures, often signaled by colons, ellipses, and similar discourse-marking punctuation.

punctuation marks that end or separate clauses, particularly colons and commas in lists or transitions.

No Comments

No Known Activations

phrasing related to emotional reactions and interpersonal connections

dramatic or emphatic punctuation like colons, periods, and ellipses.

rhetorical list/range constructions and dramatic transitional structures, often signaled by colons, ellipses, and similar discourse-marking punctuation.

punctuation marks that end or separate clauses, particularly colons and commas in lists or transitions.

No Comments

No Known Activations