Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Chinese

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Forgot

-0.09

 equations

-0.09

 perdeu

-0.08

 진행

-0.08

 perder

-0.08

 einde

-0.07

骗局

-0.07

 Casinos

-0.07

argo

-0.07

 Sentinel

-0.07

POSITIVE LOGITS

 aptitude

0.13

 mindset

0.13

 способность

0.12

Ability

0.11

 ability

0.11

 awareness

0.11

能力

0.11

 способности

0.11

 instincts

0.11

 posture

0.11

Activations Density 0.029%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact