Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Types/Classes

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 लेख

-0.08

onaut

-0.08

 investigaciones

-0.08

 Orch

-0.07

ume

-0.07

 safeguard

-0.07

uming

-0.07

.Module

-0.07

ज

-0.07

research

-0.07

POSITIVE LOGITS

 batches

0.09

 ترین

0.09

 массов

0.09

.bulk

0.09

‌ترین

0.09

 distint

0.09

 bulk

0.09

bulk

0.09

 herken

0.08

iciro

0.08

Activations Density 0.024%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact