Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

content ratings

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Everest

-0.09

 doce

-0.09

 бірінші

-0.08

Lincoln

-0.08

 ilkin

-0.08

/json

-0.08

$result

-0.08

Fal

-0.08

 luisteren

-0.08

อฟ

-0.08

POSITIVE LOGITS

 violence

0.11

 sexuality

0.10

 immoral

0.09

 profanity

0.09

 obscene

0.09

 erot

0.09

 Violence

0.09

 explicit

0.09

 erotic

0.09

 violent

0.09

Activations Density 0.058%

No Known Activations

© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact