Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

，要

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 excuses

-0.08

dbc

-0.08

.this

-0.08

 awkward

-0.08

Dining

-0.07

Rates

-0.07

Handled

-0.07

 kase

-0.07

Rocket

-0.07

 ovog

-0.07

POSITIVE LOGITS

 ಕಥ

0.09

улат

0.08

ologic

0.08

 ಕುರ

0.08

ದಿಂದ

0.07

‌ನ

0.07

 ಮೂಲ

0.07

 рассказы

0.07

 прилож

0.07

ಒ

0.07

Activations Density 0.045%

No Known Activations

© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact