Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Averages and units

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

manageable

-0.08

 manageable

-0.08

 Costa

-0.08

Leaf

-0.08

minster

-0.08

 consegue

-0.07

bahn

-0.07

 Slov

-0.07

דז

-0.07

 buds

-0.07

POSITIVE LOGITS

 variability

0.11

 deviation

0.11

_average

0.10

Deviation

0.10

avg

0.10

_avg

0.10

 deviations

0.10

verages

0.10

平均

0.09

 평균

0.09

Activations Density 0.068%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact