Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

logical conditions

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 plantation

-0.10

 Plantation

-0.09

 mani

-0.09

 plantations

-0.08

 прогул

-0.08

 기타

-0.08

 socials

-0.08

_BORDER

-0.08

 strolling

-0.07

 renovations

-0.07

POSITIVE LOGITS

 منط

0.08

 fault

0.08

 complement

0.08

 cycles

0.08

 causal

0.07

 ubiquit

0.07

0.07

 ciclos

0.07

周期

0.07

 attribute

0.07

Activations Density 0.020%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact