Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

`

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-qwen2.5-7b-instruct/resid_post_layer_19/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.19.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

所以他

-0.08

 Brave

-0.08

')}}

-0.08

但是他

-0.07

也希望

-0.07

оцен

-0.07

感情

-0.07

Cue

-0.07

感到

-0.06

 Derrick

-0.06

POSITIVE LOGITS

0.12

�

0.08

Improved

0.08

خير

0.08

.Initial

0.08

`$

0.07

内陆

0.07

`{

0.07

人脸

0.07

 파일

0.07

Activations Density 0.088%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact