Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

seems

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_23/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 collectiv

-0.08

 अपनी

-0.07

 requirements

-0.07

 faudra

-0.07

 પોતાની

-0.07

 પાસે

-0.07

 finer

-0.07

 विभिन्न

-0.07

 추가

-0.07

 अपने

-0.07

POSITIVE LOGITS

 trivial

0.36

 triv

0.24

too

0.24

 слишком

0.22

 straightforward

0.21

 terlalu

0.21

too

0.20

 ridiculously

0.20

 demasiado

0.20

Too

0.20

Activations Density 0.092%

No Known Activations

© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact