Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

statistical analysis

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

him

-0.08

ktop

-0.08

igious

-0.08

-0.07

 mình

-0.07

buttons

-0.07

 ибо

-0.07

gebra

-0.07

金

-0.07

가지

-0.07

POSITIVE LOGITS

 decreasing

0.09

 increasing

0.09

 succesvolle

0.08

 decrease

0.08

PLA

0.08

 increase

0.08

 succesvol

0.08

 diminishing

0.08

 negatively

0.08

Increasing

0.08

Activations Density 0.008%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact