Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Hidden objects/locations

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 staining

-0.08

ийн

-0.08

ેપ

-0.08

 greatness

-0.08

 aromatic

-0.07

 trekt

-0.07

,response

-0.07

 więc

-0.07

kæ

-0.07

 vraagt

-0.07

POSITIVE LOGITS

 disguised

0.15

 guise

0.15

 disguis

0.13

 innoc

0.13

 disguise

0.11

 unsus

0.11

 deceptive

0.10

 decept

0.10

 camouflage

0.10

 embed

0.10

Activations Density 0.085%

No Known Activations

© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact