Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

instructions or role-playing

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ومات

-0.08

yet

-0.08

却

-0.08

([[

-0.08

 bevolking

-0.08

 celulares

-0.07

 ಕಾಂ

-0.07

 independientes

-0.07

 واق

-0.07

，却

-0.07

POSITIVE LOGITS

 प्रयास

0.08

 eyikeyi

0.07

 उद्देश्य

0.07

plorer

0.07

 किसी

0.07

 essayer

0.07

 Swarovski

0.07

tryk

0.07

 पड़

0.07

 समझ

0.07

Activations Density 0.044%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact