Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Say 'the' or 'train'

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_15/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ency

-0.09

Each

-0.08

encies

-0.08

ences

-0.08

�

-0.08

Prin

-0.07

 sumar

-0.07

quettes

-0.07

ensions

-0.07

ux

-0.07

POSITIVE LOGITS

 ребенка

0.09

 approaching

0.09

 фильма

0.08

0.08

ของ

0.08

 камеры

0.08

 вашего

0.08

 laden

0.08

 yerləş

0.08

 карты

0.08

Activations Density 0.005%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact