Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

biology

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-llama-3.1-8b-instruct/resid_post_layer_27/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.27.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

講

-0.07

BEST

-0.07

 verm

-0.07

_best

-0.07

 Girls

-0.07

DIRECT

-0.07

'''↵↵

-0.07

)]↵

-0.07

 thấy

-0.07

ド

-0.06

POSITIVE LOGITS

 BIOS

0.06

ivic

0.06

 Benchmark

0.06

 Decre

0.06

opped

0.05

 duro

0.05

 notifies

0.05

개발

0.05

,type

0.05

 마법

0.05

Activations Density 0.109%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact