INDEX

Explanations

Correctness

np_max-act · gemini-2.0-flash

statements evaluating correctness or accuracy of responses or decisions, including references to errors.

oai_token-act-pair · gpt-5 Triggered by @faiazazmain99

words related to correctness, accuracy, or doing something right or wrong.

oai_token-act-pair · claude-4-5-sonnet Triggered by @faiazazmain99

New Auto-Interp

Configuration

mwhanna/qwen3-4b-transcoders/layer_10.safetensors

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Features

163,840

Data Type

float32

Hook Name

blocks.10.mlp.hook_in

Architecture

transcoder

Context Size

8,192

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

onis

-0.27

Ä°R

-0.25

TABLE

-0.25

bjerg

-0.25

wald

-0.25

æ³Ħæ¼ı

-0.24

 hints

-0.24

 pins

-0.24

çļĦç¨ĭåº¦

-0.23

Ł³

-0.23

POSITIVE LOGITS

ere

0.28

 validationResult

0.26

 void

0.26

vier

0.26

ensen

0.24

è¯¥æ¡Ī

0.24

urn

0.24

èµ·è¯ī

0.24

è¿ĳæľŁ

0.24

 wake

0.23

Activations Density 0.001%

Correctness

statements evaluating correctness or accuracy of responses or decisions, including references to errors.

words related to correctness, accuracy, or doing something right or wrong.

No Comments

No Known Activations