Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

coding

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ेलन

-0.08

 unpleasant

-0.08

 regional

-0.08

Regional

-0.08

Driving

-0.08

'électricité

-0.08

 irritating

-0.08

 fasting

-0.08

Opening

-0.08

 melhorar

-0.08

POSITIVE LOGITS

复制

0.18

 clone

0.17

 copying

0.17

 Clone

0.17

コピー

0.17

 copy

0.16

 copies

0.16

 Copies

0.16

 Copy

0.16

 deepcopy

0.16

Activations Density 0.007%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact