Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

became

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 onmiddellijk

-0.08

 одновременно

-0.08

 кара

-0.08

Ο

-0.08

 больше

-0.07

 степ

-0.07

 provoca

-0.07

 разговор

-0.07

-0.07

Responses

-0.07

POSITIVE LOGITS

 schließlich

0.16

 culmin

0.14

 eventually

0.14

 uiteindelijk

0.14

 결국

0.14

 finally

0.14

 akhirnya

0.13

 finalement

0.13

 culminating

0.13

 Eventually

0.12

Activations Density 0.155%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact