Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

moral

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Faces

-0.08

igere

-0.08

 специалисты

-0.08

 giga

-0.08

 фирмы

-0.08

 faszin

-0.08

 mün

-0.08

Collider

-0.08

 кожи

-0.08

 бетон

-0.08

POSITIVE LOGITS

寓

0.11

 lesson

0.09

道

0.09

 قصة

0.09

 morals

0.08

教育

0.08

lesson

0.08

 कहानी

0.08

 Vietnamese

0.08

 कथा

0.08

Activations Density 0.018%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact