Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

combinatorics problem

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 спе

-0.07

-kind

-0.07

天然

-0.07

 verbs

-0.07

 beaut

-0.07

 massages

-0.07

 Yoga

-0.07

 hack

-0.07

 устро

-0.07

 приб

-0.07

POSITIVE LOGITS

ρίζει

0.09

 इनमें

0.09

 Direito

0.08

 nges

0.08

(','

0.08

נומ

0.08

Donnell

0.08

μου

0.08

 vaikut

0.08

 intersections

0.08

Activations Density 0.016%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact