Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

for

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

дання

-0.08

roku

-0.08

 ಬು

-0.08

ross

-0.07

�

-0.07

Mond

-0.07

wipe

-0.07

跌

-0.07

��

-0.07

 ві

-0.07

POSITIVE LOGITS

large

0.12

 large

0.11

.large

0.11

 बड़ी

0.11

 பெரிய

0.11

 મોટી

0.10

 larger

0.10

 grandes

0.10

 الكبيرة

0.10

 పెద్ద

0.10

Activations Density 0.007%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact