Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

multiple languages

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 شعر

-0.08

 hink

-0.08

 hacking

-0.08

 torno

-0.07

 разб

-0.07

 తీవ్ర

-0.07

 cherry

-0.07

 toppen

-0.07

orno

-0.07

 Worst

-0.07

POSITIVE LOGITS

 역할

0.15

职责

0.15

 निभ

0.13

作用

0.13

 भूमिका

0.13

 roles

0.13

 role

0.13

 desempen

0.12

 ভূম

0.12

 responsibilities

0.12

Activations Density 0.102%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact