Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Turkish

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

rad

-0.08

Flux

-0.08

 workmanship

-0.08

flux

-0.08

pens

-0.07

 Same

-0.07

்ந

-0.07

sit

-0.07

 अशी

-0.07

mob

-0.07

POSITIVE LOGITS

 উচিত

0.12

 चाहिए

0.12

 위해

0.11

 керек

0.11

 ಸಾಧ್ಯ

0.10

 위한

0.10

좋

0.10

 obrigatório

0.10

 gerekir

0.10

 obligatorio

0.10

Activations Density 0.014%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact