Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

mathematical reasoning

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 કરતાં

-0.09

来

-0.08

达

-0.08

最终

-0.08

 કરતા

-0.08

lib

-0.08

这么

-0.08

从

-0.08

ichts

-0.08

优

-0.07

POSITIVE LOGITS

Tal

0.07

azel

0.07

댓

0.07

 Olivier

0.07

 Albany

0.07

 पॉ

0.07

 Parr

0.07

 установка

0.07

атели

0.07

ाइन

0.07

Activations Density 0.077%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact