Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

512

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 garnish

-0.07

 nationalism

-0.07

PAS

-0.07

Mor

-0.07

ตั้ง

-0.07

 बो

-0.07

utation

-0.07

्रिय

-0.07

 bloqueo

-0.07

 ठीक

-0.07

POSITIVE LOGITS

 cubes

0.08

 cube

0.08

.Bytes

0.08

Hv

0.07

 explosion

0.07

 Norge

0.07

 куб

0.07

 Cube

0.07

 hypers

0.07

 домашних

0.07

Activations Density 0.084%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact