Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Discrimination

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Corvette

-0.08

�

-0.07

 Grill

-0.07

 سوى

-0.07

 لديه

-0.07

 sweaters

-0.07

 symmetrical

-0.07

.Conn

-0.07

OBS

-0.07

 النظام

-0.07

POSITIVE LOGITS

 disability

0.11

 disabilities

0.10

 Disability

0.09

ophobia

0.09

wei

0.09

ism

0.08

 Ukraine

0.08

 discapacidad

0.08

ismus

0.08

wei

0.08

Activations Density 0.055%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact