Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

likelihood

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ницы

-0.08

ांस

-0.08

ुओं

-0.07

 управления

-0.07

ുകള

-0.07

eback

-0.07

pi

-0.07

اقة

-0.07

mij

-0.07

/import

-0.07

POSITIVE LOGITS

 occurrence

0.11

 probability

0.11

Probability

0.10

_probability

0.10

 probabilities

0.10

دوث

0.10

 Probability

0.10

 وقوع

0.10

성이

0.10

 вероятность

0.09

Activations Density 0.002%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact