Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

mathematical formulas

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 into

-0.07

-0.07

 Vert

-0.07

utters

-0.07

 over

-0.07

 subdivision

-0.07

PIB

-0.07

 division

-0.07

 interaction

-0.07

Tub

-0.07

POSITIVE LOGITS

 healthiest

0.10

 самый

0.09

ermission

0.09

 തന്നെ

0.09

lowest

0.09

 headphone

0.09

Largest

0.08

Discard

0.08

*)((

0.08

!).

0.08

Activations Density 0.016%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact