Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

equivalent

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_3/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

lak

-0.08

 nogal

-0.08

 prevents

-0.08

 interfering

-0.07

 witches

-0.07

!↵↵↵↵

-0.07

 overdose

-0.07

anasan

-0.07

 inhib

-0.07

 influences

-0.07

POSITIVE LOGITS

とな

0.09

 miniature

0.08

 möjlighet

0.08

 Möglichkeit

0.08

 называется

0.08

ுமான

0.07

 utama

0.07

 يسمى

0.07

iup

0.07

Yen

0.07

Activations Density 0.032%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact