Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

drug

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 libri

-0.08

 centimet

-0.08

 boeken

-0.08

	book

-0.08

 Libro

-0.08

 પુસ્ત

-0.08

 પુસ્તક

-0.08

 nieder

-0.08

 पुस्त

-0.07

창

-0.07

POSITIVE LOGITS

 closures

0.08

arto

0.07

 مشكلة

0.07

 expensive

0.07

 coût

0.07

 gated

0.07

тя

0.07

 companionship

0.07

property

0.07

ataan

0.07

Activations Density 0.005%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact