INDEX

Explanations

words related to a positive human interaction

oai_token-act-pair · gemini-2.0-flash

friendly

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

google/gemma-scope-2b-pt-transcoders/layer_4/width_16k/average_l0_88

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Features

16,384

Data Type

float32

Hook Name

blocks.4.ln2.hook_normalized

Architecture

jumprelu_transcoder

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 friendly

-2.28

friendly

-2.02

 Friendly

-1.99

Friendly

-1.95

 friendliness

-1.63

 FRIEND

-1.51

 unfriendly

-1.49

FRIEND

-1.38

 vriende

-1.27

vriende

-1.24

POSITIVE LOGITS

AddField

0.49

ConfigureAwait

0.47

 معت

0.47

missione

0.43

0.41

IGN

0.41

 zaś

0.40

expect

0.40

 expect

0.40

اغ

0.40

Activations Density 5.484%

words related to a positive human interaction

friendly

No Comments

No Known Activations