Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

similar

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 tore

-0.08

pọ

-0.08

 torn

-0.08

 overhaul

-0.08

bullet

-0.08

 swallow

-0.07

 abuse

-0.07

clipse

-0.07

aned

-0.07

 appealed

-0.07

POSITIVE LOGITS

 ähn

0.12

 ähnliche

0.12

 похож

0.12

 مشابه

0.11

 similaires

0.10

охожие

0.10

 समान

0.10

 similares

0.10

类似

0.10

슷

0.10

Activations Density 0.022%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact