Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

months

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 nervous

-0.07

ная

-0.07

 anticipation

-0.07

jections

-0.07

 fired

-0.07

вая

-0.07

 İlk

-0.06

 anticipating

-0.06

anf

-0.06

 αισ

-0.06

POSITIVE LOGITS

 jooksul

0.11

	duration

0.10

 müdd

0.10

 기간

0.10

 동안

0.10

 Duration

0.09

期間

0.09

 semesters

0.09

 boyunca

0.09

 durée

0.09

Activations Density 0.024%

No Known Activations

© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact